![]() |
صورة تعبيرية |
يعتبر علم البيانات (Data Science) من بين أكثر المجالات نموا وطلبا للخبرات في عالمنا اليوم، ولأن كل سياسات وإستراتيجيات الشركات المعتبرة في مجال التكنولوجيات أو التسويق أو التجارة الإلكترونية أو غيرها من المجالات النامية والصاعدة تقوم على صناعة القرار وفق دراسة وتحليل البيانات المتأتية من مختلف المصادر فإن هندسة البيانات أو بالأحرى مهندس البيانات هو من يمتلك الحظ الأفر اليوم في سوق الشغل العالمية.
لكن وقبل كل شيء، يجب علينا أن نستوعب عدة مفاهيم في مجال علم البيانات عموما وهندسة البيانات (وهذا ما نتخصص فيه اليوم) من بينها مفهوم "النظام البيئي للبيانات".
ما المقصود بالنظام البيئي للبيانات؟
يتألف النظام البيئي للبيانات من البنية التحتية والتحليلات والتطبيقات التي تمكن مهندسي البيانات من تسجيلها وتنظيمها وإستخدامها للحصول على بيانات قابلة للإستخدام وصناعة القرارات.
ما الذي يتضمنه النظام البيئي لمهندس البيانات؟
يتضمن النظام البيئي لمهندس البيانات البنية التحتية والأدوات والأطر والعمليات اللازمة لإستخراج البيانات وتصميم وإدارة خطوط أنابيب البيانات ومستودعات البيانات وإدارة سير العمل وتطوير التطبيقات وإدارة أدوات ذكاء الأعمال وإعداد التقارير.
وإستنادا إلى مدى تحديد بنية البيانات بشكل جيد، يمكن تصنيف البيانات على أنها:
• بيانات منظمة، وهي البيانات التي يتم تنظيمها جيدًا بتنسيقات يمكن تخزينها في قواعد البيانات.
• بيانات شبه منظمة، وهي البيانات المنظمة جزئيًا والحرة جزئيًا.
• وبيانات غير منظمة، وهي البيانات التي لا يمكن تنظيمها بشكل تقليدي في صفوف وأعمدة.
تأتي البيانات في مجموعة واسعة من تنسيقات الملفات، مثل الملفات النصية المحددة، وجداول البيانات، وXML، وPDF، وJSON، ولكل منها قائمة خاصة من المزايا ومن قيود الإستخدام.
من أين يتم إستخراج البيانات؟
يتم إستخراج البيانات من مصادر بيانات متعددة، بدءًا من قواعد البيانات العلائقية وغير العلائقية، إلى واجهات برمجة التطبيقات وخدمات الويب وتدفقات البيانات ومنصات التواصل الإجتماعي وأجهزة الاستشعار وغيرها.
بمجرد تحديد البيانات وجمعها من مصادر مختلفة، يجب تخزينها في مستودع بيانات حتى يمكن إعدادها للتحليل، وهنا يؤثر نوع البيانات وتنسيقها ومصادرها على نوع مستودع البيانات الذي يمكن إستخدامه لتخزينها.
ماهي لغات البرمجة التي يحتاجها مهندس البيانات؟
يحتاج متخصصو البيانات إلى مجموعة من اللغات البرمجية التي يمكنها مساعدتهم في إستخراج البيانات وإعدادها وتحليلها، حيث يمكننا تصنيفها على النحو التالي:
• لغات الإستعلام
مثل SQL، المستخدمة للوصول إلى البيانات ومعالجتها من قواعد البيانات.
• لغات البرمجة
مثل Python وR وJava لتطوير التطبيقات والتحكم في سلوك التطبيق.
• لغات Shell والبرمجة النصية
مثل Unix/Linux Shell وPowerShell، لأتمتة المهام التشغيلية المتكررة.