التصوير البياني في تعلم الالة Data Visualization in ML

البيانات هي الركيزة الأساسية التي يعتمد عليها نجاح النماذج model وزيادة دقتها, وعند التعامل مع البيانات الكبيرة من الصعب التعرف على البيانات و التعرف على العلاقة بين المتغيرات. و من هنا تكمن أهمية فهم البيانات و اكتشاف الأنماط  لاستخدامها سواء في بناء نماذج تنبؤية أو في دعم عملية اتخاذ القرارات. و تظهر أهمية تصور البيانات Data Visualization في مرحلة دراسة و اكتشاف البيانات و قبل البدء في تدريب النموذج. يساعد تصور البيانات في عملية تنظيف البيانات باكتشاف إذا كانت البيانات غير متوازنة ايضاً يساعد في عملية هندسة الميزات Feature Engineering حيث يساعد في اختيار خصائص معينة في البيانات أو حذفها.

تصور البيانات هو عملية تحويل البيانات الخام إلى صور بيانية تساعد في فهم البيانات و علاقة المتغيرات ببعضها مما يساهم في استخراج رؤي مهمة و نتائج تساعد في اتخاذ القرارات. و هناك أنواع من البيانات إما عددية أو وصفية.

تحليل المتغير الواحد Univariate Analysis
تحليل كل خاصية بشكل مستقل مثل نطاق البيانات و التنبه الى وجود أي قيم خارج النطاق في البيانات  outliers. من أكثر الرسوم البيانية المستخدمة في هذا التحليل هو المخطط الصندوقي box plots المخطط التوزيعي distribution plots.

تحليل ثنائي المتغير Bivariate Analysis
يتم مقارنة البيانات بين خاصيتين و يساعد التحليل في اكتشاف العلاقة بين الخصائص. بعض الرسوم البيانية المستخدمة تشمل الرسم البياني الخطي line plots، الأعمدة البيانية bar plots، و مخطط الانتشار scatterplots.

 

أشهر أنواع التصوير البياني للبيانات:

المدرج التكراري Histogram يستخدم لتحليل توزيع البيانات واكتشاف الأنماط  في البيانات أو توزيعها في فترات زمنية معينة. مثل, اسعار العقار في جدة خلال الفترة من ٢٠١٤ الى ٢٠٢٤.

الرسم البياني الخطي line chart تستخدم لتفسير العلاقة بين المتغيرات العددية  في فترات زمنية و الهدف منها لتتبع اتجاهات البيانات واكتشاف نمط البيانات و توجهاته خلال الفترة المحددة مما يساعد في اتخاذ القرارات. مثال زيادة عدد السكان و اسعار شراء العقار في مدينة جدة خلال الخمس السنوات الماضية.

المخطط الصندوق Box plots يستخدم لعرض الانتشار في البيانات spread والمساعدة في رؤية القيم الدنيا والعليا والقيم المتطرفة outliers. مثال مقارنة درجات الطلاب في الترم الأول و الترم الثاني.

مخطط الانتشار Scatter plots يستخدم لتحليل العلاقة بين متغيرين عددين حيث يساعد في اكتشاف العلاقة بين المتغيرات و يساعد في تحديد نمط و اتجاهات البيانات. مثال مقارنة العلاقة بين الدرجات النهائية للطلاب الفردية ومدة التحضير للاختبار.

المخطط الحراري Heatmap يستخدم  لتحديد العلاقة بين متغيرين عبر شبكة مما يسهل اكتشاف الأنماط والاتجاهات في البيانات.

مخطط الكثافة Density plots تستخدم لإظهار الكثافة الاحتمالية في البيانات العدديه تساعد في عرض توزيع البيانات بسلاسة مثال عرض كثافة الأعمار بين زوار منطقة معينة.

الأعمدة البيانية Bar charts تستخدم لإظهار توزيع البيانات عبر المجموعات المختلفة من خلال تمثيل البيانات في فئات أو مجموعات حيث يمثل كل عمود عدد أو تكرار لفئة معينة. مثال عدد الطلاب في تخصص الرياضيات و الهندسة في جامعة معينة.

رسم البياني الدائري Pie charts يستخدم لتمثيل النسب المئوية أو عدد الحصص في مجموعة البيانات حيث يساهم في فهم التوزيع و النسب بين الفئات المختلفة. مثال توزيع عدد الطلاب المشاركين في المسابقة حسب التخصص مثلا 40% من تخصص الهندسة  30% من تخصص الرياضيات 

مخطط عمودي مكدس Stacked bar charts تساعد في توضيح التوزيع داخل المجموعات عن طريق تقسيم كل عمود إلى مجموعات فرعية ضمن الفئة الأساسية. مثال تمثيل موديلات السيارات التي تم بيعها خلال فترات زمنية مختلفة.

رسم بياني نقطي Dot plots إذا كانت الفئات لها عدد محدود يمكن استخدام المخطط لعرض عدد الفئات في البيانات باستخدام النقاط.  مثال نتائج استبيان, عدد العملاء الذين يفضلون أنواع مختلفة من المنتجات.