البيانات

البيانات, الذكاء الاصطناعي, تعلم الالة

التصوير البياني في تعلم الالة Data Visualization in ML

البيانات هي الركيزة الأساسية التي يعتمد عليها نجاح النماذج model وزيادة دقتها, وعند التعامل مع البيانات الكبيرة من الصعب التعرف على البيانات و التعرف على العلاقة بين المتغيرات. و من هنا تكمن أهمية فهم البيانات و اكتشاف الأنماط  لاستخدامها سواء في بناء نماذج تنبؤية أو في دعم عملية اتخاذ القرارات. و تظهر أهمية تصور البيانات Data Visualization في مرحلة دراسة و اكتشاف البيانات و قبل البدء في تدريب النموذج. يساعد تصور البيانات في عملية تنظيف البيانات باكتشاف إذا كانت البيانات غير متوازنة ايضاً يساعد في عملية هندسة الميزات Feature Engineering حيث يساعد في اختيار خصائص معينة في البيانات أو حذفها. تصور البيانات هو عملية تحويل البيانات الخام إلى صور بيانية تساعد في فهم البيانات و علاقة المتغيرات ببعضها مما يساهم في استخراج رؤي مهمة و نتائج تساعد في اتخاذ القرارات. و هناك أنواع من البيانات إما عددية أو وصفية. تحليل المتغير الواحد Univariate Analysisتحليل كل خاصية بشكل مستقل مثل نطاق البيانات و التنبه الى وجود أي قيم خارج النطاق في البيانات  outliers. من أكثر الرسوم البيانية المستخدمة في هذا التحليل هو المخطط الصندوقي box plots المخطط التوزيعي distribution plots. تحليل ثنائي المتغير Bivariate Analysisيتم مقارنة البيانات بين خاصيتين و يساعد التحليل في اكتشاف العلاقة بين الخصائص. بعض الرسوم البيانية المستخدمة تشمل الرسم البياني الخطي line plots، الأعمدة البيانية bar plots، و مخطط الانتشار scatterplots.   أشهر أنواع التصوير البياني للبيانات: المدرج التكراري Histogram يستخدم لتحليل توزيع البيانات واكتشاف الأنماط  في البيانات أو توزيعها في فترات زمنية معينة. مثل, اسعار العقار في جدة خلال الفترة من ٢٠١٤ الى ٢٠٢٤. الرسم البياني الخطي line chart تستخدم لتفسير العلاقة بين المتغيرات العددية  في فترات زمنية و الهدف منها لتتبع اتجاهات البيانات واكتشاف نمط البيانات و توجهاته خلال الفترة المحددة مما يساعد في اتخاذ القرارات. مثال زيادة عدد السكان و اسعار شراء العقار في مدينة جدة خلال الخمس السنوات الماضية. المخطط الصندوق Box plots يستخدم لعرض الانتشار في البيانات spread والمساعدة في رؤية القيم الدنيا والعليا والقيم المتطرفة outliers. مثال مقارنة درجات الطلاب في الترم الأول و الترم الثاني. مخطط الانتشار Scatter plots يستخدم لتحليل العلاقة بين متغيرين عددين حيث يساعد في اكتشاف العلاقة بين المتغيرات و يساعد في تحديد نمط و اتجاهات البيانات. مثال مقارنة العلاقة بين الدرجات النهائية للطلاب الفردية ومدة التحضير للاختبار. المخطط الحراري Heatmap يستخدم  لتحديد العلاقة بين متغيرين عبر شبكة مما يسهل اكتشاف الأنماط والاتجاهات في البيانات. مخطط الكثافة Density plots تستخدم لإظهار الكثافة الاحتمالية في البيانات العدديه تساعد في عرض توزيع البيانات بسلاسة مثال عرض كثافة الأعمار بين زوار منطقة معينة. الأعمدة البيانية Bar charts تستخدم لإظهار توزيع البيانات عبر المجموعات المختلفة من خلال تمثيل البيانات في فئات أو مجموعات حيث يمثل كل عمود عدد أو تكرار لفئة معينة. مثال عدد الطلاب في تخصص الرياضيات و الهندسة في جامعة معينة. رسم البياني الدائري Pie charts يستخدم لتمثيل النسب المئوية أو عدد الحصص في مجموعة البيانات حيث يساهم في فهم التوزيع و النسب بين الفئات المختلفة. مثال توزيع عدد الطلاب المشاركين في المسابقة حسب التخصص مثلا 40% من تخصص الهندسة  30% من تخصص الرياضيات  مخطط عمودي مكدس Stacked bar charts تساعد في توضيح التوزيع داخل المجموعات عن طريق تقسيم كل عمود إلى مجموعات فرعية ضمن الفئة الأساسية. مثال تمثيل موديلات السيارات التي تم بيعها خلال فترات زمنية مختلفة. رسم بياني نقطي Dot plots إذا كانت الفئات لها عدد محدود يمكن استخدام المخطط لعرض عدد الفئات في البيانات باستخدام النقاط.  مثال نتائج استبيان, عدد العملاء الذين يفضلون أنواع مختلفة من المنتجات.    

google cloud
البيانات, الذكاء الاصطناعي, تعلم الالة

من البيانات إلى النماذج باستخدام Google Cloud

في رحلة بناء حلول و مشاريع الذكاء الاصطناعي تعتبر البيانات هي الأساس الذي يتم من خلاله تطوير النموذج سواء في مرحلة التدريب أو بعدها. تبدأ من خلال جمع بيانات كبيرة و معالجتها ثم تحليلها و تجهيزها بصيغ معينة تناسب النموذج المراد استخدامه. Google Cloud توفر بيئة متكاملة تتضمن العديد من الخدمات و المنتجات التي تساعد في تطوير حلول و مشاريع ذكاء الاصطناعي. حيث تدعم عملية تحليل البيانات وتدريب النماذج بشكل متكامل بكفاءة وتسهل متابعة و مراقبة النماذج بعد نشرها. مراحل تطوير النموذج باستخدام Google Cloud استيعاب البيانات Data Ingestion: وهي عملية جمع البيانات من مصادر متعددة لهدف إنشاء قاعدة بيانات جاهزة لتحليلها أو لتدريب نماذج الذكاء الاصطناعي.  تتم هذه العملية في Google Could باستخدام المنتجات Pub/Sub , Dataflow , Dataproc , Cloud Data Fusion تخزين البيانات Data Storage: بعد جمع البيانات يتم حفظها في أنظمة و قواعد بيانات وتختلف تقنيات التخزين بحسب تصنيف البيانات و حجمها و احتياج استخدامها لاحقا مثل بيانات تستخدم يوميا أو أرشفة. من المنتجات في ارشفة المنتجات Cloud Storage, Bigtable, Cloud SQL, Spanner, Filestore, BigQuery. تحليل المنتجات Analytics Product وهي عملية تحليل البيانات و دراستها و استخراج رؤى لحل مشكلة او دعم اتخاذ قرار. Google Cloud توفر هذه المنتجات BigQuery, Looker منتجات الذكاء الاصطناعي وتعلم الآلة AI/ML Products توفر العديد من المنتجات و الخدمات التي تساعد لانشاء منتجات الذكاء الاصطناعي و تعلم الالة و من أشهرها Vertex AI.  توفر Google Could حلول خاصة بتدريب النماذج أو منتجات للشركات باستخدام الذكاء الاصطناعي. تطوير نماذج الذكاء الاصطناعي AI Development: وهي ادوات تساعد المطورين من تطوير مختلف النماذج و تدريبها و اختبار دقتها من خلال استخدام المنتجات ومنها Cloud AutoML, AI Workbench, Colab Enterprise  ,Vertex AI Studio Model Garden حلول الذكاء الاصطناعي AI Solutions: تقدم Google Cloud حلول جاهزة لأتمتة العمليات   منها Document AI , Contact Center AI , Vertex AI Search for retail , Healthcare Data Engine تقدم Google Cloud مجموعة متكاملة من منتجات الذكاء الاصطناعي التي تمكن المطورين والشركات من استغلال قوة التعلم الآلي والذكاء الاصطناعي لتحسين عملياتها وزيادة كفاءتها. سواء كان الهدف هو تطوير نماذج مخصصة باستخدام AI Platform أو الاستفادة من حلول الذكاء الاصطناعي الجاهزة

البيانات

مهارات تحليل البيانات

تحليل البيانات أصبح جزء أساسي من عملية اتخاذ القرارات في الشركات والمؤسسات و يتطلب هذا المجال المهارات التقنية والعملية التي تمكن المحللين من استخراج رؤى قيمة من البيانات الضخمة. في هذا المقال، سنستعرض أهم المهارات التي يجب أن يتقنها كل محلل بيانات. المهارات التقنية الأساسية البرمجة وتحليل البيانات القدرة على البرمجة تعتبر حجر الأساس في تحليل البيانات، فهي التي تمكن المحللين من التعامل مع كميات ضخمة من البيانات وتحليلها بفعالية. من بين أهم لغات البرمجة:Python: واحدة من أكثر لغات البرمجة شيوعاً في تحليل البيانات، حيث توفر مكتبات متقدمة مثل Pandas و NumPy و Matplotlib لتسهيل تحليل البيانات.SQL: تستخدم لاسترجاع ومعالجة البيانات من قواعد البيانات. تعتبر لغة أساسية لا غنى عنها في أي بيئة تحليلية.R: لغة متخصصة في التحليل الإحصائي وتعد مناسبة لتحليل البيانات والرسوم البيانية. إدارة قواعد البيانات فهم كيفية تخزين البيانات وإدارتها بشكل فعال يساعد المحللين في الوصول إلى البيانات وتحليلها بسرعة ودقة. تشمل المهارات المهمة في هذا المجال:MySQL و SQL Server: أدوات لتخزين واسترجاع البيانات، و تمكن المحللون على بناء استفسارات فعالة لاستخراج المعلومات المطلوبة. التصور البياني للبيانات القدرة على تحويل البيانات إلى رسوم بيانية ولوحات تفاعلية يسهل فهمها.  بعض الأدوات في هذا المجال تشمل:Power BI: أداة متقدمة لإنشاء لوحات تحكم تفاعلية تعرض البيانات بشكل مرئي.Tableau: تستخدم لإنشاء تصورات معقدة، وهي مناسبة للمشاريع الكبيرة التي تتطلب تحليلات عميقة. تعلم الآلة والذكاء الاصطناعي بفضل التقدم في تعلم الآلة، يمكن للمحللين تطوير نماذج تنبؤية تساعد الشركات على التنبؤ بالاتجاهات المستقبلية. من بين أشهر الخوارزميات:الانحدار الخطي Linear Regression: يستخدم لتحديد العلاقة بين المتغيرات وتوقع النتائج.شجرة القرار Decision Tree: تساعد في تصنيف البيانات واتخاذ القرارات بناء على مجموعة من القواعد.الغابات العشوائية Random Forest: تعمل على تحسين دقة التنبؤ من خلال إنشاء مجموعة من أشجار القرار وجمع نتائجها.SVM دعم الآلات المتجهة: تستخدم لتصنيف البيانات بشكل دقيق.خوارزمية K-Mean: تُستخدم لتجميع البيانات في مجموعات بناءً على التشابه.الانحدار اللوجستي Logistic Regression: يركز على التصنيف الثنائي ويساعد في تحليل البيانات ذات الفئات المحددة. المهارات الشخصية (Soft Skills) إلى جانب المهارات التقنية، يحتاج محلل البيانات إلى تطوير مجموعة من المهارات الشخصية التي تساعده في التفاعل مع الفريق وأصحاب القرار. من أبرز هذه المهارات:التواصل الفعال: القدرة على تقديم النتائج والتحليلات بلغة مفهومة للجمهور غير المتخصص.العمل الجماعي: التعاون مع فرق متعددة التخصصات لتحقيق أهداف المشروع.الإبداع وحل المشكلات: القدرة على التفكير النقدي وإيجاد حلول مبتكرة للمشاكل المعقدة باستخدام البيانات. التحليل الإحصائي وحل المشكلات المحللون لا يتعاملون فقط مع البيانات الخام، بل يجب عليهم فهم الأنماط والعلاقات داخل البيانات. لذلك، يجب تطوير مهارات في:الإحصاء: القدرة على تحليل البيانات الإحصائية مثل التوزيعات والانحرافات المعيارية والارتباطات.استخدام الأدوات التحليلية: مثل Excel و Google Analytics، التي تساعد في تحليل البيانات والتنبؤ بالاتجاهات المستقبلية. إدارة المشاريع وتحليل الأعمال إلى جانب التحليل الفني، يحتاج المحللون إلى مهارات إدارة المشاريع وفهم الأعمال لتحقيق النجاح. من المهارات المهمة:إدارة الوقت: القدرة على تنظيم العمل وإدارة الوقت بفعالية لتحقيق الأهداف في المواعيد المحددة.فهم الأهداف التجارية: العمل على تحليل البيانات بما يتماشى مع أهداف الشركة واستراتيجياتها. تحليل البيانات يتطلب مجموعة متكاملة من المهارات التقنية والشخصية. من إتقان لغات البرمجة مثل Python و SQL، إلى فهم الخوارزميات المعقدة لتعلم الآلة، بالإضافة إلى القدرة على التواصل بفعالية والعمل ضمن فريق، كل هذه المهارات مجتمعة تساعد في تحقيق النجاح في هذا المجال. 

البيانات

مصطلحات في علم البيانات

قاعدة البيانات، المخطط، الجدول Database, Schema, Table قاعدة البيانات Database: نظام يخزن ويدير البيانات المنظمة.المخطط Schema: يحدد هيكل البيانات وقواعد تخزينها.الجدول Table: ينظم البيانات في صفوف وأعمدة داخل قاعدة البيانات.مثال:في جامعة، قاعدة بيانات تخزن معلومات الطلاب، يتضمن المخطط تقسيم البيانات إلى جداول مختلفة مثل جدول الطلاب، جدول  وجدول الدرجات. خط أنابيب البيانات Data Pipeline هو نظام يدير تدفق البيانات من نقاط جمعها إلى وجهات التخزين مثل بحيرات البيانات أو المستودعات.مثال مصنع يجمع بيانات من أجهزة الاستشعار المختلفة مثل درجة الحرارة والرطوبة، ثم ينقل هذه البيانات إلى مستودع بيانات لتحليلها فيما بعد ETL مقابل ELT ETL: عملية استخراج البيانات، تحويلها إلى تنسيق مناسب، ثم تحميلها في نظام تخزين.ELT: عملية استخراج البيانات، تحميلها في نظام التخزين، ثم تحويلها داخليًا.مثال: ETL متجر إلكتروني يقوم بجمع بيانات المبيعات اليومية، يحولها إلى تنسيق مشترك، ثم يخزنها في مستودع بيانات.ELT: شركة تحليل بيانات تقوم بتحميل جميع بيانات العملاء إلى مستودع البيانات مباشرة، ثم تستخدم أدوات تحليلية لتحويل هذه البيانات. بحيرة البيانات, مستودع البيانات , متجر البيانات Data Lake ,Data Warehouse , Data Mart بحيرة البيانات Data Lake: تخزن كميات ضخمة من البيانات الخام بمختلف أنواعها.مستودع البيانات Data Warehouse: قاعدة بيانات مخصصة للبيانات المهيكلة والمجهزة للاستعلام.متجر البيانات Data Mart: قسم محدد من مستودع البيانات يركز على وظيفة أو قسم معين. مثال لبحيرة البيانات, شركة تقنية تخزن كل أنواع بيانات المستخدمين الخام، من النصوص إلى مقاطع الفيديو.مستودع البيانات, بنك يحتفظ ببيانات المعاملات المالية المهيكلة لاستعلامات دورية.متجر البيانات, قسم التسويق في شركة يستخدم متجر بيانات مخصص للوصول إلى بيانات العملاء وتوجيه الحملات الإعلانية. المعالجة الدُفعية و المعالجة المستمرة Batch , Stream Processing المعالجة الدفعية Batch: معالجة مجموعة من البيانات دفعة واحدة في وقت محدد.المعالجة المستمرة Stream: معالجة البيانات فور وصولها بشكل مستمر وفي الوقت الفعلي.مثال المعالجة الدفعية, منصة تجارة إلكترونية تقوم بمعالجة جميع طلبات الشراء في نهاية كل يوم.المعالجة المستمرة, نظام كشف الاحتيال الذي يراقب معاملات بطاقات الائتمان في الوقت الفعلي لمنع الاحتيال فور حدوثه. جودة البيانات Data Quality هو ضمان أن البيانات دقيقة و متسقة وملائمة للهدف.مثال شركة تأمين تتحقق من دقة واكتمال بيانات العملاء لضمان تقديم عروض تأمين مناسبة لكل عميل. نمذجة البيانات Data Modeling تصميم هيكل قاعدة البيانات بطريقة تدعم التحليل السريع والفعال.مثال متجر إلكتروني يصمم قاعدة بيانات بحيث يمكن استرداد معلومات مثل المنتجات الأكثر مبيعًا أو سجلات العملاء بسهولة. تنسيق البيانات Data Orchestration إدارة حركة البيانات وتكاملها عبر الأنظمة المختلفة لتوفير تدفق سلس وتحليل فعال.مثال شركة دولية تقوم بجمع بيانات مبيعات من متاجرها في جميع أنحاء العالم وتنسيقها في مستودع بيانات مركزي لتحليل أداء المبيعات عالميا. نسب البيانات Data Lineage تتبع مسار البيانات وتحولاتها من المصدر إلى الوجهة النهائية.مثال شركة أدوية تتبع البيانات المتعلقة بتطوير دواء معين، من لحظة جمع البيانات التجريبية، مرورا بالتحليلات المختلفة  إلى التقارير النهائية التي تقدم إلى الجهات المعنية. التعلم الآلي Machine Learning فرع من الذكاء الاصطناعي يعتمد على تدريب النماذج على البيانات لتمكين الأنظمة من التعلم واتخاذ القرارات دون برمجة صريحة.مثال منصة توصيات الأفلام تستخدم التعلم الآلي لتحليل تاريخ مشاهدة المستخدم واقتراح الأفلام التي قد تعجبه. تحليل البيانات Data Analysis عملية استكشاف وتفسير البيانات لاستخلاص رؤى تدعم اتخاذ القرارات.مثال محلل بيانات يقوم بدراسة بيانات مبيعات الشركة لتحليل أداء المنتجات وتحديد الاستراتيجيات لتحسين المبيعات. البيانات الضخمة Big Data مجموعات بيانات ضخمة ومعقدة لا يمكن معالجتها بواسطة أدوات وتقنيات إدارة البيانات التقليدية.مثال شركات مثل Google وAmazon تعالج وتحلل كميات هائلة من البيانات الضخمة لتقديم خدمات مخصصة للمستخدمين. النموذج التنبؤي Predictive Model نموذج يستخدم البيانات التاريخية للتنبؤ بالنتائج المستقبلية.مثال بنك يستخدم نموذج تنبؤي لتقدير احتمالية تخلف العملاء عن سداد القروض بناء على تاريخهم المالي. التصور البياني Data Visualization تحويل البيانات إلى رسومات بصرية مثل المخططات والخرائط لعرض المعلومات بشكل سهل الفهم.مثال مدير مشروع يستخدم لوحة معلومات تحتوي على رسوم بيانية تعرض تقدم العمل ومؤشرات الأداء الرئيسية.  

البيانات

أساسيات تعلم علوم البيانات

مع استمرار توسع عالم الذكاء الاصطناعي (AI)، أصبحت الحاجة إلى علماء البيانات القادرين على جمع وتحليل وتفسير كميات هائلة من البيانات أكبر من أي وقت مضى. ولكن من أين تبدأ إذا كنت جديدًا في هذا المجال؟ في هذا الدليل، سنتناول أساسيات علوم البيانات، مع التركيز على المهارات والمفاهيم الرئيسية التي تحتاج إلى تعلمها لبناء أساس قوي للذكاء الاصطناعي. جمع البيانات وتنظيفها البيانات هي العمود الفقري لأي مشروع ذكاء اصطناعي، والخطوة الأولى هي جمع البيانات ذات الصلة. يمكن أن تأتي هذه البيانات من مصادر متنوعة مثل قواعد البيانات، أو APIs، أو من خلال استخراج البيانات من الويب. ولكن غالبًا ما تكون البيانات الأولية غير منظمة ومليئة بالأخطاء. يتطلب تنظيف البيانات تصحيح الأخطاء أو إزالة البيانات غير الصحيحة، مما يضمن أن البيانات المستخدمة في التحليل دقيقة وقابلة للاعتماد عليها. تحليل البيانات واستكشافها EDA يُعتبر التحليل الاستكشافي للبيانات EDA خطوة مهمة في فهم خصائص البيانات و طبيعتها. يتضمن ذلك استخدام تقنيات مختلفة لاستكشاف البيانات بصريًا وتحليلها إحصائيًا لتحديد الأنماط والعلاقات. يُعد EDA الخطوة الأساسية لتحديد الاتجاهات المبدئية وتوجيه الخطوات التالية في عملية التحليل. التصور وتحليل البيانات تصور البيانات هو وسيلة قوية لتحويل الأرقام والبيانات الخام إلى رسوم بيانية واضحة ومفهومة. يساعد التصور في تسهيل فهم الأنماط والاتجاهات داخل البيانات. يمكن أن يشمل هذا الرسوم البيانية والخرائط الحرارية والمخططات التي تساعد في تحليل البيانات بشكل أعمق، وتُستخدم بشكل واسع في توصيل الأفكار المعقدة بطريقة بسيطة. التحليل الوصفي للبيانات التحليل الوصفي هو عملية استخدام الإحصاءات لوصف وتلخيص البيانات. يتضمن ذلك حساب مقاييس مثل المتوسط والانحراف المعياري والنسب المئوية. هذه الأدوات تساعد في تلخيص البيانات وتقديم نظرة عامة حول الاتجاهات والأنماط الرئيسية. معالجة البيانات وتحويلها Data Wrangling معالجة البيانات هي عملية تحويل البيانات من شكلها الأصلي إلى شكل يمكن تحليله بسهولة أكبر. قد يشمل ذلك دمج مجموعات البيانات، وتغيير صيغ البيانات، وتصحيح الأخطاء. يُعد هذا جزءًا أساسيًا من عملية تحليل البيانات، حيث يضمن أن البيانات جاهزة للتحليل. الإحصاء الاستنتاجي Inferential Statistics الإحصاء الاستنتاجي هو الفرع الذي يتعامل مع اتخاذ القرارات أو التنبؤات بناءً على البيانات التي تم تحليلها. يساعد هذا النوع من الإحصاءات على استنتاجات عامة حول السكان استنادًا إلى عينة من البيانات، وتكمن أهميته في بناء النماذج التنبؤية وتقييم الفرضيات. قواعد البيانات وSQL تُعد قواعد البيانات من أهم الأدوات لإدارة البيانات الضخمة، وSQL  هي اللغة الأساسية للتفاعل مع هذه القواعد. تعلم SQL ضروري لاستخراج البيانات من قواعد البيانات الكبيرة وتنظيمها، مما يسهل عملية التحليل لاحقًا. تكنولوجيا البيانات الضخمة مع تزايد حجم البيانات، أصبحت تقنيات البيانات الضخمة ضرورية للتعامل مع كميات هائلة من البيانات التي لا يمكن معالجتها باستخدام الأساليب التقليدية. تقنيات مثل Hadoop وSpark تُستخدم لتوزيع وتخزين ومعالجة البيانات الضخمة بشكل فعال. معالجة البيانات المسبقة Data Preprocessing قبل أن تبدأ عملية تحليل البيانات، يجب أن تمر البيانات بمرحلة معالجة مسبقة. يتضمن ذلك تنظيف البيانات، تحويلها، وتطبيعها لتكون جاهزة للتحليل. هذه الخطوة ضرورية لضمان جودة البيانات ودقة النتائج التي يتم الحصول عليها لاحقًا. خصوصية البيانات والأخلاقيات مع تزايد كمية البيانات المتاحة، تصبح خصوصية البيانات وأخلاقيات استخدامها من الأمور الحاسمة. يتضمن ذلك التأكد من استخدام البيانات بطريقة أخلاقية، وضمان الحفاظ على سرية وخصوصية بيانات المستخدمين. يجب أن يكون علماء البيانات على دراية كاملة بقوانين ولوائح حماية البيانات. تعتبر هذه المهارات مهمة في تحليل البيانات بفعالية، وتطوير نماذج دقيقة، واتخاذ قرارات مستنيرة. حيث تعتبر علوم البيانات مفتاحًا لفهم البيانات الضخمة واستغلالها لبناء حلول ذكية ومستقبلية.