تعلم الالة

البيانات, الذكاء الاصطناعي, تعلم الالة

التصوير البياني في تعلم الالة Data Visualization in ML

البيانات هي الركيزة الأساسية التي يعتمد عليها نجاح النماذج model وزيادة دقتها, وعند التعامل مع البيانات الكبيرة من الصعب التعرف على البيانات و التعرف على العلاقة بين المتغيرات. و من هنا تكمن أهمية فهم البيانات و اكتشاف الأنماط  لاستخدامها سواء في بناء نماذج تنبؤية أو في دعم عملية اتخاذ القرارات. و تظهر أهمية تصور البيانات Data Visualization في مرحلة دراسة و اكتشاف البيانات و قبل البدء في تدريب النموذج. يساعد تصور البيانات في عملية تنظيف البيانات باكتشاف إذا كانت البيانات غير متوازنة ايضاً يساعد في عملية هندسة الميزات Feature Engineering حيث يساعد في اختيار خصائص معينة في البيانات أو حذفها. تصور البيانات هو عملية تحويل البيانات الخام إلى صور بيانية تساعد في فهم البيانات و علاقة المتغيرات ببعضها مما يساهم في استخراج رؤي مهمة و نتائج تساعد في اتخاذ القرارات. و هناك أنواع من البيانات إما عددية أو وصفية. تحليل المتغير الواحد Univariate Analysisتحليل كل خاصية بشكل مستقل مثل نطاق البيانات و التنبه الى وجود أي قيم خارج النطاق في البيانات  outliers. من أكثر الرسوم البيانية المستخدمة في هذا التحليل هو المخطط الصندوقي box plots المخطط التوزيعي distribution plots. تحليل ثنائي المتغير Bivariate Analysisيتم مقارنة البيانات بين خاصيتين و يساعد التحليل في اكتشاف العلاقة بين الخصائص. بعض الرسوم البيانية المستخدمة تشمل الرسم البياني الخطي line plots، الأعمدة البيانية bar plots، و مخطط الانتشار scatterplots.   أشهر أنواع التصوير البياني للبيانات: المدرج التكراري Histogram يستخدم لتحليل توزيع البيانات واكتشاف الأنماط  في البيانات أو توزيعها في فترات زمنية معينة. مثل, اسعار العقار في جدة خلال الفترة من ٢٠١٤ الى ٢٠٢٤. الرسم البياني الخطي line chart تستخدم لتفسير العلاقة بين المتغيرات العددية  في فترات زمنية و الهدف منها لتتبع اتجاهات البيانات واكتشاف نمط البيانات و توجهاته خلال الفترة المحددة مما يساعد في اتخاذ القرارات. مثال زيادة عدد السكان و اسعار شراء العقار في مدينة جدة خلال الخمس السنوات الماضية. المخطط الصندوق Box plots يستخدم لعرض الانتشار في البيانات spread والمساعدة في رؤية القيم الدنيا والعليا والقيم المتطرفة outliers. مثال مقارنة درجات الطلاب في الترم الأول و الترم الثاني. مخطط الانتشار Scatter plots يستخدم لتحليل العلاقة بين متغيرين عددين حيث يساعد في اكتشاف العلاقة بين المتغيرات و يساعد في تحديد نمط و اتجاهات البيانات. مثال مقارنة العلاقة بين الدرجات النهائية للطلاب الفردية ومدة التحضير للاختبار. المخطط الحراري Heatmap يستخدم  لتحديد العلاقة بين متغيرين عبر شبكة مما يسهل اكتشاف الأنماط والاتجاهات في البيانات. مخطط الكثافة Density plots تستخدم لإظهار الكثافة الاحتمالية في البيانات العدديه تساعد في عرض توزيع البيانات بسلاسة مثال عرض كثافة الأعمار بين زوار منطقة معينة. الأعمدة البيانية Bar charts تستخدم لإظهار توزيع البيانات عبر المجموعات المختلفة من خلال تمثيل البيانات في فئات أو مجموعات حيث يمثل كل عمود عدد أو تكرار لفئة معينة. مثال عدد الطلاب في تخصص الرياضيات و الهندسة في جامعة معينة. رسم البياني الدائري Pie charts يستخدم لتمثيل النسب المئوية أو عدد الحصص في مجموعة البيانات حيث يساهم في فهم التوزيع و النسب بين الفئات المختلفة. مثال توزيع عدد الطلاب المشاركين في المسابقة حسب التخصص مثلا 40% من تخصص الهندسة  30% من تخصص الرياضيات  مخطط عمودي مكدس Stacked bar charts تساعد في توضيح التوزيع داخل المجموعات عن طريق تقسيم كل عمود إلى مجموعات فرعية ضمن الفئة الأساسية. مثال تمثيل موديلات السيارات التي تم بيعها خلال فترات زمنية مختلفة. رسم بياني نقطي Dot plots إذا كانت الفئات لها عدد محدود يمكن استخدام المخطط لعرض عدد الفئات في البيانات باستخدام النقاط.  مثال نتائج استبيان, عدد العملاء الذين يفضلون أنواع مختلفة من المنتجات.    

الذكاء الاصطناعي, تعلم الالة

ML Pipeline سير عمل التعلم الآلي

تكمن أهمية ML Pipeline  بأنها أحد المراحل المهمة في تطوير نظام التعلم الآلي. حيث أنها تساعد علماء البيانات و المهندسين في التحكم بالمشروع بجميع المراحل و ستساعد من بناء نماذج ذات دقة عالية و تسمح بالتوسع بالمستقبل. جمع البيانات Data Collection بعد تحديد الغرض من بناء نموذج أو مشروع تعلم الالة سواء كان لحل مشكلة أو لتحسين هدف تجاري ف تكون أول مرحلة يركز عليها المطور هو جمع البيانات وهي الركيزة الأولى التي يجب ان تأخذ الوقت الكافي من المشروع و ذلك لزيادة دقة النموذج بعد تدريبه. ضرورة التركيز بنوعية البيانات التي يتم جمعها أن تقوم بحل الهدف من النموذج و أن تكون صيغة البيانات مناسبة.هناك العديد من المصادر التي تساعد في عملية جمع الببيانات:١- مجموعة البيانات الجاهزه مثل kaggle و Roboflow٢- تصفح الويب (Web Crawling): استخدام برامج لجمع البيانات من مواقع الويب المختلفة٣- تجريف البيانات (Data Scraping): استخراج المعلومات من صفحات الويب بطريقة منظمة٤- بناء مجموعة بيانات يدويا (Building a Dataset): تجميع البيانات في مجموعة بيانات موحدة من خلال البحث عن مصادر البيانات من خلال المواقع و حفظها٥- استخدام واجهات برمجة التطبيقات (APIs): الحصول على البيانات من خدمات أو تطبيقات خارجية عبر API٦- البيانات الناتجة عن عمليات الشركة أو الأنشطة: مثل جمع آراء العملاء عبر مراكز الاتصال  معالجة البيانات Data Processing عند الانتهاء من جمع البيانات يأتي دور معالجتها و تنظيفها من أجل تجهيزها في تدريب النموذج model.  وهي عملية لضمان جاهزية البيانات و تؤثر في دقة النموذج.١-  تنظيف البيانات Data Cleaning من خلال إزالة القيم المفقودة أو استبدالها بأخذ متوسط القيم, تصحيح صيغ البيانات, حذف السجلات المكررة٢- معالجة القيم المتباينة Handling Outliers خلال تحليل البيانات قد تواجهك  قيم متطرفة (outliers) مثل متوسط المبيعات خلال اليوم ١٠٠٠ إلى ٢٠٠٠ ووجدت قيم ١٠ أو ١٠٠٠٠٠٣- تحويل البيانات Data Transformation تحويل صيغة أو هيكلة البيانات إلى الصيغة المناسبة لاستخدامها في النموذج.  هناك أنواع لتحويل البيانات منها Data Normalization تطبيع البيانات, Format Conversion تحويل الصيغ و الترميز الأحادي One-Hot Encoding  هندسة الميزات Feature Engineering  هندسة الميزات هي عملية تعديل أو حذف أو جمع بيانات بهدف إنشاء بيانات جديدة تساعد في تحسين و دقة النموذج و تقليل تحيز النتائج.    تقسيم البيانات Data Splitting بعد الانتهاء من تجهيز البيانات و معالجتها يأتي الآن دور تقسيمها بنسب معينة من أجل استخدامها في تدريب النموذج و اختباره.- مجموعة التدريب Training Set: الهدف منها لتدريب النموذج وتشكل نسبتها 70-80% من البيانات.- مجموعة التحقق Validation Set :  تستخدم لتقييم أداء النموذج خلال التدريب من خلال ضبط وتحسين الخوارزمية و نسبتها  10-15% من البيانات.- مجموعة الاختبار Test Set:  توفر تقييم غير متحيز لأداء النموذج من خلال استخدام بيانات جديدة  و هذه يضمن قدرة النوذج على التوسع والتعميم, و نسبتها  10-15% من البيانات.   اختيار النموذج Model Selection اختيار النموذج المناسب يعتمد على هدف المشروع و صيغة البيانات التي تم تجهيزها, و بالبداية نوضح أنواع  تعلم الآلة هي Supervised Learning  التعلم تحت المراقبة ,  Unsupervised Learning التعلم غير المراقب, Semi-Supervised Learning التعلم شبه المراقب و Reinforcement Learning التعلم التعزيزي.سيتم شرح كل نوع منها مستقبلا بإذن الله  و سنذكر بعض الخوارزميات في هذه المقالة.  مهمة التصنيف Classification Tasks : وهي تستخدم تقنيات مختلفة لتحليل البيانات وتحديد الفئات  وبعض الخوارزميات المشهورة في مهمة التصنيف – Support Vector Machines (SVM)- Logistic Regression- Decision Trees مهمة الانحدار Regression Tasks: تستخدم بتقدير القيم العددية بدلاً من التصنيف الفئات, بعض الخوارزميات الشائعة:- Linear Regression- Random Forest- Polynomial Regression  مهمة التجميع Clustering Tasks: الهدف هو تقسيم مجموعة البيانات إلى مجموعات clusters على أن تكون العناصر داخل كل مجموعة متشابهة قدر الإمكان مثل: – K-Means – Hierarchical Clustering   تدريب النموذج و تكييفه  Model Training and Fitting  هي عملية يتم فيها تغذية خوارزميات تعلم الآلة  بالبيانات التي تم تجهيزها بهدف تعليم النموذج على البيانات و اكتشاف الأنماط  والاتجاهات. يتم تعديل وزن النموذج model weights  بناءً على الأخطاء التي تظهر أثناء التعلم، مما يمكنه من تحسين دقته مع مرور الوقت.الهدف هو تعليم النموذج كيفية التنبؤ بالنتائج بناءً على البيانات المدخلة و تعديل parameters المعلمات لتقليل نسبة الخطأ ين توقعاته والنتائج الفعلية. تقييم النموذج Model Evaluation تقييم أداء النموذج من خلال استخدام بيانات الاختبار و التحقق باستخدام بعض المقاييس منها accuracy, Recall  and F1 score  نشر النموذج و مراقبته Deployment and Monitoring رفع النموذج في بيئة الإنتاج الفعلية حيث يمكنه التعامل مع بيانات جديدة و تقديم النتائج و التوقعات. و تكمن أهميه متابعة وقياس أداء النموذج بعد نشره للتأكد من أنه يعمل كما هو متوقع و يتم تحسسينه  بناء على النتائج، قد يحتاج النموذج إلى إعادة التدريب  باستخدام بيانات جديدة لضمان استمرارية دقة الأداء.

google cloud
البيانات, الذكاء الاصطناعي, تعلم الالة

من البيانات إلى النماذج باستخدام Google Cloud

في رحلة بناء حلول و مشاريع الذكاء الاصطناعي تعتبر البيانات هي الأساس الذي يتم من خلاله تطوير النموذج سواء في مرحلة التدريب أو بعدها. تبدأ من خلال جمع بيانات كبيرة و معالجتها ثم تحليلها و تجهيزها بصيغ معينة تناسب النموذج المراد استخدامه. Google Cloud توفر بيئة متكاملة تتضمن العديد من الخدمات و المنتجات التي تساعد في تطوير حلول و مشاريع ذكاء الاصطناعي. حيث تدعم عملية تحليل البيانات وتدريب النماذج بشكل متكامل بكفاءة وتسهل متابعة و مراقبة النماذج بعد نشرها. مراحل تطوير النموذج باستخدام Google Cloud استيعاب البيانات Data Ingestion: وهي عملية جمع البيانات من مصادر متعددة لهدف إنشاء قاعدة بيانات جاهزة لتحليلها أو لتدريب نماذج الذكاء الاصطناعي.  تتم هذه العملية في Google Could باستخدام المنتجات Pub/Sub , Dataflow , Dataproc , Cloud Data Fusion تخزين البيانات Data Storage: بعد جمع البيانات يتم حفظها في أنظمة و قواعد بيانات وتختلف تقنيات التخزين بحسب تصنيف البيانات و حجمها و احتياج استخدامها لاحقا مثل بيانات تستخدم يوميا أو أرشفة. من المنتجات في ارشفة المنتجات Cloud Storage, Bigtable, Cloud SQL, Spanner, Filestore, BigQuery. تحليل المنتجات Analytics Product وهي عملية تحليل البيانات و دراستها و استخراج رؤى لحل مشكلة او دعم اتخاذ قرار. Google Cloud توفر هذه المنتجات BigQuery, Looker منتجات الذكاء الاصطناعي وتعلم الآلة AI/ML Products توفر العديد من المنتجات و الخدمات التي تساعد لانشاء منتجات الذكاء الاصطناعي و تعلم الالة و من أشهرها Vertex AI.  توفر Google Could حلول خاصة بتدريب النماذج أو منتجات للشركات باستخدام الذكاء الاصطناعي. تطوير نماذج الذكاء الاصطناعي AI Development: وهي ادوات تساعد المطورين من تطوير مختلف النماذج و تدريبها و اختبار دقتها من خلال استخدام المنتجات ومنها Cloud AutoML, AI Workbench, Colab Enterprise  ,Vertex AI Studio Model Garden حلول الذكاء الاصطناعي AI Solutions: تقدم Google Cloud حلول جاهزة لأتمتة العمليات   منها Document AI , Contact Center AI , Vertex AI Search for retail , Healthcare Data Engine تقدم Google Cloud مجموعة متكاملة من منتجات الذكاء الاصطناعي التي تمكن المطورين والشركات من استغلال قوة التعلم الآلي والذكاء الاصطناعي لتحسين عملياتها وزيادة كفاءتها. سواء كان الهدف هو تطوير نماذج مخصصة باستخدام AI Platform أو الاستفادة من حلول الذكاء الاصطناعي الجاهزة

تعلم الالة

أساسيات التعلم الآلي

التعلم الآلي هو مجال متقدم في الذكاء الاصطناعي يهدف إلى تحويل البيانات إلى حلول ذكية تساعد في اتخاذ القرارات. إذا كنت مبتدئًا في هذا المجال، فإن فهم الأساسيات هو الخطوة الأولى نحو تطوير نماذج قوية تعالج المشكلات المعقدة. في هذا المقال، سنستعرض المفاهيم الأساسية للتعلم الآلي مع أمثلة عملية لتسهيل الفهم. تحليل الانحدار Regression Analysis تحليل الانحدار هو أسلوب إحصائي يستخدم لتحديد العلاقة بين متغير تابع “النتيجة” ومتغير أو أكثر من المتغيرات المستقلة ” العوامل المؤثرة”. الهدف هو التنبؤ بقيمة المتغير التابع بناءً على قيم المتغيرات المستقلة. مثال شركة عقارية تريد توقع أسعار المنازل بناءً على حجم المنزل وعدد الغرف. باستخدام تحليل الانحدار، يمكن تطوير نموذج يتنبأ بسعر المنزل بناءً على هذه المتغيرات. خوارزميات التصنيف Classification Algorithms خوارزميات التصنيف تستخدم لتصنيف البيانات إلى فئات مختلفة. تتعلم هذه الخوارزميات من بيانات تدريب تحتوي على أمثلة مصنفة، ثم يتك تطبيق هذا التعلم لتصنيف البيانات الجديدة. مثال تطوير نظام لتصنيف رسائل البريد الإلكتروني إلى “بريد عشوائي” و”غير عشوائي”، يمكنك استخدام خوارزمية مثل الانحدار اللوجستي لتعلم التصنيف من بيانات البريد الإلكتروني الحالية، وتطبيق هذا التصنيف على رسائل جديدة. تقنيات التجميع Clustering Techniques التجميع هو أسلوب تعلم غير خاضع للإشراف يُستخدم لتقسيم البيانات إلى مجموعات Clusters بناء على التشابه بين البيانات. يتم تجميع البيانات التي تشترك في خصائص معينة في مجموعة واحدة. مثال  تقسيم عملاء إلى مجموعات بناء على أنماط الشراء، يمكن استخدام تقنية K-means لتقسيم العملاء إلى مجموعات محددة. يساعد هذا في تخصيص حملات تسويقية موجهة لكل مجموعة. تقليل الأبعاد Dimensionality Reduction تقليل الأبعاد هو عملية تقليص عدد المتغيرات في مجموعة البيانات مع الحفاظ على أكبر قدر ممكن من المعلومات الأصلية. تستخدم لتبسيط البيانات وجعلها أكثر قابلية للتحليل. مثال إذا كان هناك مجموعة بيانات تتضمن 50 ميزة لكل عنصر، يمكنك استخدام تحليل المكونات الرئيسية PCA لتقليل عدد الميزات إلى 10 مكونات رئيسية، مما يسهل تحليل البيانات وتصورها. التحقق المتقاطع وتدريب النموذج Cross-Validation and Model Training التحقق المتقاطع هو طريقة لتقييم أداء النموذج عن طريق تقسيم البيانات إلى مجموعات تدريب واختبار. يساعد هذا في التحقق من قدرة النموذج على التعميم على بيانات جديدة، وليس فقط على بيانات التدريب. مثال بناء نموذج لتوقع مبيعات المتاجر. يمكن تقسيم البيانات إلى 10 اقسام، وتدريب النموذج على 9 اقسام واختباره على الجزء المتبقي. هذا يساعد في ضمان أن النموذج يعمل بشكل ممتاز على البيانات الجديدة. التجهيز الزائد و الضبط Overfitting and Regularization الإفراط في التعلم يحدث عندما يتعلم النموذج التفاصيل الدقيقة والضوضاء في بيانات التدريب بشكل يضر بقدرته على التعميم على بيانات جديدة. التنظيم هو تقنية تُستخدم لتقليل تعقيد النموذج ومنع الإفراط في التعلم. مثال  بناء نموذج لتنبؤ بمبيعات المنتجات، وقام النموذج بحفظ الأنماط الغير مهمة من بيانات التدريب، ممكن ان يكون غير فعال عند تطبيقه على بيانات جديدة. باستخدام تقنية التنظيم مثل Lasso، يمكن فرض قيود على النموذج لتجنب الإفراط في التعلم. اختيار النموذج وتدريبه Model Selection and Training يتضمن اختيار النموذج عملية مقارنة واختيار أفضل خوارزمية لحل مشكلة معينة. يتم تدريب النموذج باستخدام بيانات محددة وتحسينه ليقدم أفضل أداء ممكن. مثال اذا كان هناك  نظام للتعرف على الوجوه، يمكن مقارنة أداء خوارزميات مختلفة مثل الشبكات العصبية وآلات الدعم المتجهة SVM لتحديد الأفضل لتطبيقك. مقاييس التقييم Evaluation Metrics مقاييس التقييم هي معايير تُستخدم لقياس أداء النموذج. تساعد هذه المقاييس في تحديد مدى دقة النموذج وكفاءته في حل المشكلة. مثال تطور نموذج لتصنيف الصور،و معرفة مدى دقته. يمكنك استخدام مقاييس مثل الدقة Accuracy وF1 score لتقييم أداء النموذج وضمان تقديمه لأداء موثوق طرق التجميع Ensemble Methods أساليب التعديل هي تقنيات تجمع بين عدة نماذج لتحسين الأداء العام. تساعد هذه الأساليب في تقليل الأخطاء وزيادة دقة التنبؤات. مثال تطور نظام لتنبؤ بأسعار الأسهم، يمكن استخدام طريقة الغابات العشوائية Random Forest لتحسين دقة التوقعات وتقليل نسبة الخطأ.