جودة البيانات و موثوقيتها Data Quality and Reliability

البيانات من الاصول الثابتة التي تتفرد بفاعليتها على تعزيز النتائج وزيادة كفاءة العمليات المبنية عليها أو اتخاذ القرارات بناء على تحليلها. ايضا أنظمة الذكاء الاصطناعي تتطلب أن تكون ذات فعالية كبيرة و تكون دقة النماذج عالية مما له تأثير كبير في موثوقية النتائج ودقتها خاصة في المجالات التي نسبة الخطأ فيها تؤثر بشكل كامل في اتخاذ القرارات على سبيل المثال القطاع الصحي مثل التنبؤ و اكتشاف الأمراض. و من هنا تأتي أهمية مراقبة جودة البيانات وموثوقيتها حيث أن وجود بعض البيانات الغير دقيقة أو غير موثوقة تؤثر سلبا على النتائج و لذلك تكمن أهمية دراسة و مراقبة البيانات لتحسين جودتها و ضمان موثوقيتها.

جودة البيانات Data Quality 

هي عملية التأكد من دقة البيانات واكتمالها من خلال مراقبة البيانات و اكتشاف الأخطاء، أو القيم المفقودة أو بيانات غير متناسقة، و العمل على تنظيف هذه البيانات و تجهيزها حتى لا تؤثر بشكل سلبي  على دقة نتائج النماذج و التحليلات. 

أبعاد جودة البيانات Data Quality Dimensions:

هي عدة معايير يتم استخدامها لقياس و تحليل دقة البيانات و التأكد من موثوقيتها. و يمكن أن يتم قياس كل معيار و تحسينه بشكل منفرد و من خلال دمج هذه المعايير الخمسة توفر لنا تصور شامل عن البيانات و مدى دقتها وجاهزيتها سواء في تدريب النماذج عليها أو اتخاذ القرارات. و يتم التعبير عن نتائج القياس بنسب توضح مدى اكتمال البيانات و جاهزيتها مثال, اذا كانت قاعدة بيانات العملاء جاهزه بنسبة 40% فهذا يعني بأن الحملات التسويقية لن تصل إلى العملاء المستهدفين بشكل دقيق. 

  • الدقة Accuracy : تعني بأن القيم المسجلة تعكس مواءمة القيم الواقعية و خلوها من الأخطاء و تتناسب مع مصدر قابل للتحقق منها. مثال، رقم الجوال الصحيح  يضمن دائما الوصول للعميل. وتعتبر دقة البيانات من الأمور المهمة التي تعزز دقة النتائج و فعاليتها في اتخاذ القرارات.
  • الاكتمال Completeness:  تعني أن جميع البيانات المهمة تم تسجيلها و لا يوجد قيم مهمة مفقودة أو غير مكتملة. و هو يقيس مدى كفاية البيانات لاعتمادها في اتخاذ القرارات. مثال, وجود كافة المعلومات الضرورية التي تضمن الوصول للعميل و عدم توفر معلومات اختيارية مثل سطر العنوان الثاني لا يؤثر في البيانات.
  • الاتساق Consistency: و هو التأكد بأن البيانات المسجلة في عدة سجلات يجب أن تكون متطابقة. مثال بيانات العميل غير متناسقة في سجلين مختلفين، تؤثر سلبا في استهداف الحملات التسويقية.
  • الحداثة Timeliness: أن تكون البيانات محدثة باستمرار حيث أن البيانات القديمة أو الغير ملائمة توثر في جودة القرارات. مثال, استخدام بيانات الشهر الماضي لتنفيذ حملة تسويقية قد تؤثر على نتائج الحملة و ذلك لفقدان البيانات تفضيلات العملاء خلال هذا الشهر أو توجهات المنافسين.
  • الملائمةللإستخدام Fitness for use: تقيس مدى علاقة البيانات بالهدف المراد تحليله و أن تخدم هدف المستخدم.

 موثوقية البيانات Data Reliability

موثوقية البيانات تعنى بقياس مدى الثقة في البيانات و التوجهات المستخرجة منها لاعتمادها في اتخاذ القرارات الفعالة. و تعتمد الموثوقية على جزئين هم الدقة و الاتساق, الدقه بأن البيانات مواكبة و تعكس البيانات الواقعية مما تساعد في اتخاذ قرارات موثوقة بناء عليها. أما التناسق موجه بالتركيز على أخذ قياسات متشابهة في ظروف مختلفة. تعتمد نماذج الذكاء الاصطناعي على موثوقية البيانات في تقديم نتائج ثابتة و دقيقة في مختلف الظروف حيث أن جمع البيانات بطريقة عشوائية تجعل مخرجات النماذج غير صحيحة خاصة اذا اختلفت ظروف استخدام النموذج.

تحسين جودة البيانات في الذكاء الاصطناعي

  • تنظيف البيانات Data cleaning : التعامل مع البيانات منها المفقودة, المكررة, مدخلات خاطئة أو الغير متناسقة 
  • التحقق من البيانات Data validation : التأكد من البيانات تم جمعها وتخزينها بشكل صحيح
  • دمج البيانات Data integration : التأكد من أن دمج البيانات من مصادر مختلفة مثل قواعد البيانات, المواقع, وسائل التواصل ان تم جمعها بطريقة متناسقة تخدم العمليات مثل اتخاذ القرارات او لتدريب النموذج بحيث تكون البيانات شاملة و دقيقة.
  • حوكمة البيانات Data governance : استخدام سياسات و معايير معينة لإدارة والتحكم في جودة البيانات من خلال معايير مختلفة  مثل الملكية، الوصول، الأمان والامتثال.

 

 

المصادر:

Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality

Book Foundations of Data Quality Management By Wenfei Fan, Floris Geerts