Author name: webbinds

AI, NLP, الذكاء الاصطناعي, نماذج اللغات الكبيرة LLM

ثورة جديدة في عالم الذكاء الاصطناعي DeepSeek R1

نقلة نوعية في مجال نماذج الذكاء الاصطناعي اللغوية LLM أطلقت الشركة الصينية نموذج DeepSeek R1 مفتوح المصدر الذي ينافس نماذج كبيرة مثل ChatGPT من حيث دقة الاستجابة وتقليل التكاليف. ما هو DeepSeek R1؟ يعد DeepSeek R1 نموذج لغوي ضخم LLM تم تطويره باستخدام تقنية التعلم المعزز Reinforcement Learning – RL، التي تعزز بتقديم إجابات دقيقة مقارنة بالنماذج التقليدية التي تعتمد في تدريبها على كميات هائلة من البيانات.  لا يزال النموذج في مراحله الأولى ويتميز بفاعليته في الدقة والكفاءة. ماذا يميز النموذج؟ انخفاض التكلفة: حيث صمم ليقدم أداء مماثل لنماذج مثل ChatGPT ولكن  يتميز بتكلفة تشغيل أقل. التعلم المعزز RL: تم استخدام تقنية التعليم المعزز التي تعزز قدرة النموذج على تحسين الإجابات تلقائيا من خلال التفاعل. مفتوح المصدر: هذه الميزة تتيح للمطورين والباحثين الاطلاع على هيكل النموذج وتطويره وفق احتياجاتهم. رغم امكانية النموذج الواعدة الا انه لا يزال في بداية الطريق وحوله تساؤلات في معايير الخصوصية والأمان للبيانات المستخدمة. ايضا يحتاج إلى مزيد من الاختبارات للتأكد من فعاليته في مجالات مختلفة. كيفية تجربة النموذج والاستفادة منه الاستخدام المباشرة: استخدام النموذج عبر المنصة هنا الكود المصدري: الاطلاع على تفاصيل النموذج وتعديله عبر GitHub دورة تعليمية: لدراسة هيكلة النموذج وتطبيقاته العملية، الاطلاع على الكورس التعليمي على YouTube توافر النموذج على المنصات السحابية أعلنت مايكروسوفت عن دعمها للنموذج من خلال توافره على منصة Azure AI Foundry و GitHub  لتمكين الشركات من استخدامه في تطبيقات الذكاء الاصطناعي و للمطورين الراغبين في دمج النموذج في مشاريعهم. ايضا نشرت AWS دعمها للنموذج و توفره على المنصة AWS لنشر النموذج على Google Cloud باتباع الخطوات الموضحة في هذه المقالة  يعد اطلاق DeepSeek R1 خطوة ممكنة نحو جعل تقنيات الذكاء الاصطناعي أكثر فعالية و معززة للابتكار بفضل ميزة المصدر المفتوح مع خفض التكاليف. و يبقى التحدي الأكبر هو كسب ثقة المستخدمين عبر تعزيز الشفافية وضمان أمان البيانات. 

data quality
البيانات

جودة البيانات و موثوقيتها Data Quality and Reliability

البيانات من الاصول الثابتة التي تتفرد بفاعليتها على تعزيز النتائج وزيادة كفاءة العمليات المبنية عليها أو اتخاذ القرارات بناء على تحليلها. ايضا أنظمة الذكاء الاصطناعي تتطلب أن تكون ذات فعالية كبيرة و تكون دقة النماذج عالية مما له تأثير كبير في موثوقية النتائج ودقتها خاصة في المجالات التي نسبة الخطأ فيها تؤثر بشكل كامل في اتخاذ القرارات على سبيل المثال القطاع الصحي مثل التنبؤ و اكتشاف الأمراض. و من هنا تأتي أهمية مراقبة جودة البيانات وموثوقيتها حيث أن وجود بعض البيانات الغير دقيقة أو غير موثوقة تؤثر سلبا على النتائج و لذلك تكمن أهمية دراسة و مراقبة البيانات لتحسين جودتها و ضمان موثوقيتها. جودة البيانات Data Quality  هي عملية التأكد من دقة البيانات واكتمالها من خلال مراقبة البيانات و اكتشاف الأخطاء، أو القيم المفقودة أو بيانات غير متناسقة، و العمل على تنظيف هذه البيانات و تجهيزها حتى لا تؤثر بشكل سلبي  على دقة نتائج النماذج و التحليلات.  أبعاد جودة البيانات Data Quality Dimensions: هي عدة معايير يتم استخدامها لقياس و تحليل دقة البيانات و التأكد من موثوقيتها. و يمكن أن يتم قياس كل معيار و تحسينه بشكل منفرد و من خلال دمج هذه المعايير الخمسة توفر لنا تصور شامل عن البيانات و مدى دقتها وجاهزيتها سواء في تدريب النماذج عليها أو اتخاذ القرارات. و يتم التعبير عن نتائج القياس بنسب توضح مدى اكتمال البيانات و جاهزيتها مثال, اذا كانت قاعدة بيانات العملاء جاهزه بنسبة 40% فهذا يعني بأن الحملات التسويقية لن تصل إلى العملاء المستهدفين بشكل دقيق.  الدقة Accuracy : تعني بأن القيم المسجلة تعكس مواءمة القيم الواقعية و خلوها من الأخطاء و تتناسب مع مصدر قابل للتحقق منها. مثال، رقم الجوال الصحيح  يضمن دائما الوصول للعميل. وتعتبر دقة البيانات من الأمور المهمة التي تعزز دقة النتائج و فعاليتها في اتخاذ القرارات. الاكتمال Completeness:  تعني أن جميع البيانات المهمة تم تسجيلها و لا يوجد قيم مهمة مفقودة أو غير مكتملة. و هو يقيس مدى كفاية البيانات لاعتمادها في اتخاذ القرارات. مثال, وجود كافة المعلومات الضرورية التي تضمن الوصول للعميل و عدم توفر معلومات اختيارية مثل سطر العنوان الثاني لا يؤثر في البيانات. الاتساق Consistency: و هو التأكد بأن البيانات المسجلة في عدة سجلات يجب أن تكون متطابقة. مثال بيانات العميل غير متناسقة في سجلين مختلفين، تؤثر سلبا في استهداف الحملات التسويقية. الحداثة Timeliness: أن تكون البيانات محدثة باستمرار حيث أن البيانات القديمة أو الغير ملائمة توثر في جودة القرارات. مثال, استخدام بيانات الشهر الماضي لتنفيذ حملة تسويقية قد تؤثر على نتائج الحملة و ذلك لفقدان البيانات تفضيلات العملاء خلال هذا الشهر أو توجهات المنافسين. الملائمةللإستخدام Fitness for use: تقيس مدى علاقة البيانات بالهدف المراد تحليله و أن تخدم هدف المستخدم.  موثوقية البيانات Data Reliability موثوقية البيانات تعنى بقياس مدى الثقة في البيانات و التوجهات المستخرجة منها لاعتمادها في اتخاذ القرارات الفعالة. و تعتمد الموثوقية على جزئين هم الدقة و الاتساق, الدقه بأن البيانات مواكبة و تعكس البيانات الواقعية مما تساعد في اتخاذ قرارات موثوقة بناء عليها. أما التناسق موجه بالتركيز على أخذ قياسات متشابهة في ظروف مختلفة. تعتمد نماذج الذكاء الاصطناعي على موثوقية البيانات في تقديم نتائج ثابتة و دقيقة في مختلف الظروف حيث أن جمع البيانات بطريقة عشوائية تجعل مخرجات النماذج غير صحيحة خاصة اذا اختلفت ظروف استخدام النموذج. تحسين جودة البيانات في الذكاء الاصطناعي تنظيف البيانات Data cleaning : التعامل مع البيانات منها المفقودة, المكررة, مدخلات خاطئة أو الغير متناسقة  التحقق من البيانات Data validation : التأكد من البيانات تم جمعها وتخزينها بشكل صحيح دمج البيانات Data integration : التأكد من أن دمج البيانات من مصادر مختلفة مثل قواعد البيانات, المواقع, وسائل التواصل ان تم جمعها بطريقة متناسقة تخدم العمليات مثل اتخاذ القرارات او لتدريب النموذج بحيث تكون البيانات شاملة و دقيقة. حوكمة البيانات Data governance : استخدام سياسات و معايير معينة لإدارة والتحكم في جودة البيانات من خلال معايير مختلفة  مثل الملكية، الوصول، الأمان والامتثال.     المصادر: Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality Book Foundations of Data Quality Management By Wenfei Fan, Floris Geerts

البيانات, الذكاء الاصطناعي, تعلم الالة

التصوير البياني في تعلم الالة Data Visualization in ML

البيانات هي الركيزة الأساسية التي يعتمد عليها نجاح النماذج model وزيادة دقتها, وعند التعامل مع البيانات الكبيرة من الصعب التعرف على البيانات و التعرف على العلاقة بين المتغيرات. و من هنا تكمن أهمية فهم البيانات و اكتشاف الأنماط  لاستخدامها سواء في بناء نماذج تنبؤية أو في دعم عملية اتخاذ القرارات. و تظهر أهمية تصور البيانات Data Visualization في مرحلة دراسة و اكتشاف البيانات و قبل البدء في تدريب النموذج. يساعد تصور البيانات في عملية تنظيف البيانات باكتشاف إذا كانت البيانات غير متوازنة ايضاً يساعد في عملية هندسة الميزات Feature Engineering حيث يساعد في اختيار خصائص معينة في البيانات أو حذفها. تصور البيانات هو عملية تحويل البيانات الخام إلى صور بيانية تساعد في فهم البيانات و علاقة المتغيرات ببعضها مما يساهم في استخراج رؤي مهمة و نتائج تساعد في اتخاذ القرارات. و هناك أنواع من البيانات إما عددية أو وصفية. تحليل المتغير الواحد Univariate Analysisتحليل كل خاصية بشكل مستقل مثل نطاق البيانات و التنبه الى وجود أي قيم خارج النطاق في البيانات  outliers. من أكثر الرسوم البيانية المستخدمة في هذا التحليل هو المخطط الصندوقي box plots المخطط التوزيعي distribution plots. تحليل ثنائي المتغير Bivariate Analysisيتم مقارنة البيانات بين خاصيتين و يساعد التحليل في اكتشاف العلاقة بين الخصائص. بعض الرسوم البيانية المستخدمة تشمل الرسم البياني الخطي line plots، الأعمدة البيانية bar plots، و مخطط الانتشار scatterplots.   أشهر أنواع التصوير البياني للبيانات: المدرج التكراري Histogram يستخدم لتحليل توزيع البيانات واكتشاف الأنماط  في البيانات أو توزيعها في فترات زمنية معينة. مثل, اسعار العقار في جدة خلال الفترة من ٢٠١٤ الى ٢٠٢٤. الرسم البياني الخطي line chart تستخدم لتفسير العلاقة بين المتغيرات العددية  في فترات زمنية و الهدف منها لتتبع اتجاهات البيانات واكتشاف نمط البيانات و توجهاته خلال الفترة المحددة مما يساعد في اتخاذ القرارات. مثال زيادة عدد السكان و اسعار شراء العقار في مدينة جدة خلال الخمس السنوات الماضية. المخطط الصندوق Box plots يستخدم لعرض الانتشار في البيانات spread والمساعدة في رؤية القيم الدنيا والعليا والقيم المتطرفة outliers. مثال مقارنة درجات الطلاب في الترم الأول و الترم الثاني. مخطط الانتشار Scatter plots يستخدم لتحليل العلاقة بين متغيرين عددين حيث يساعد في اكتشاف العلاقة بين المتغيرات و يساعد في تحديد نمط و اتجاهات البيانات. مثال مقارنة العلاقة بين الدرجات النهائية للطلاب الفردية ومدة التحضير للاختبار. المخطط الحراري Heatmap يستخدم  لتحديد العلاقة بين متغيرين عبر شبكة مما يسهل اكتشاف الأنماط والاتجاهات في البيانات. مخطط الكثافة Density plots تستخدم لإظهار الكثافة الاحتمالية في البيانات العدديه تساعد في عرض توزيع البيانات بسلاسة مثال عرض كثافة الأعمار بين زوار منطقة معينة. الأعمدة البيانية Bar charts تستخدم لإظهار توزيع البيانات عبر المجموعات المختلفة من خلال تمثيل البيانات في فئات أو مجموعات حيث يمثل كل عمود عدد أو تكرار لفئة معينة. مثال عدد الطلاب في تخصص الرياضيات و الهندسة في جامعة معينة. رسم البياني الدائري Pie charts يستخدم لتمثيل النسب المئوية أو عدد الحصص في مجموعة البيانات حيث يساهم في فهم التوزيع و النسب بين الفئات المختلفة. مثال توزيع عدد الطلاب المشاركين في المسابقة حسب التخصص مثلا 40% من تخصص الهندسة  30% من تخصص الرياضيات  مخطط عمودي مكدس Stacked bar charts تساعد في توضيح التوزيع داخل المجموعات عن طريق تقسيم كل عمود إلى مجموعات فرعية ضمن الفئة الأساسية. مثال تمثيل موديلات السيارات التي تم بيعها خلال فترات زمنية مختلفة. رسم بياني نقطي Dot plots إذا كانت الفئات لها عدد محدود يمكن استخدام المخطط لعرض عدد الفئات في البيانات باستخدام النقاط.  مثال نتائج استبيان, عدد العملاء الذين يفضلون أنواع مختلفة من المنتجات.    

5-Day Generative AI Intensive Course
الذكاء الاصطناعي, نماذج اللغات الكبيرة LLM

دورة مكثفة في الذكاء الاصطناعي التوليدي Generative AI Intensive Course

نشرت Kaggle بالتعاون مع Google دليل للتعليم الذاتي في مجال الذكاء الاصطناعي التوليدي.  “Five day Generative AI Intensive Course”، حيث يغطي موضوعات متقدمة ومهمة في هذا المجال. مواضيع الدورة: اليوم الأول: النماذج التأسيسية وهندسة الأوامر “Foundational Models & Prompt Engineering” التعرف بشكل أعمق على تطور النماذج اللغوية الكبيرة LLMs من تقنيات المحولات “Transformers” إلى الضبط الدقيق “Fine-Tuning” وتسريع الاستدلال “Inference Acceleration”. البودكاست , المقالة هندسة الأوامر لتحسين تفاعل النماذج اللغوية البودكاست , المقالة , اكواد برمجية اليوم الثاني: التضمينات وقواعد بيانات المتجهات “Embeddings and Vector Stores/Databases” المبادئ الأساسية للتضمينات وقواعد بيانات المتجهات و تعلم طرق التضمين وخوارزميات البحث عن المتجهات مع أمثلة عملية باستخدام LLMs البودكاست , مقالة  كود بناء نظام إجابة على الأسئلة باستخدام RAG (استرجاع-توليد) على مستندات مخصصة كود اكتشاف تشابه النصوص باستخدام التضمينات كود بناء شبكة تصنيف عصبية باستخدام Keras باستخدام التضمينات   اليوم الثالث: وكلاء الذكاء الاصطناعي التوليدي “Generative AI Agents” التعرف على كيفية بناء وكلاء ذكاء اصطناعي متقدمة من خلال فهم المكونات الأساسية بودكاست , المقالة  كود التحدث إلى قاعدة بيانات باستخدام استدعاء الدوال كود بناء نظام طلبات وكيل في LangGraph كود بناء شبكة تصنيف عصبية باستخدام Keras باستخدام التضمينات   اليوم الرابع: النماذج اللغوية المتخصصة “Domain-Specific LLMs” التعمق في معرفة إنشاء وتطبيق النماذج اللغوية المتخصصة مثل SecLM وMed-PaLM، مع التطرق لرؤى الباحثين الذين قاموا بتطويره هذه النماذج بودكاست , مقالة كود استخدام بيانات بحث جوجل في عملية توليد النصوص كود تعديل نموذج Gemini لمهمة مخصصة اليوم الخامس: عمليات تعلم الآلة للذكاء الاصطناعي التوليدي “MLOps for Generative AI” كيفية تكييف التعامل و استخدام MLOps لتطبيقات الذكاء الاصطناعي التوليدي باستخدام أدوات مثل Vertex AI الهدف منها تطوير التطبيقات بشكل متكامل البودكاست , المقالة End-to-End Gen AI App Starter Pack   للاطلاع على تفاصيل الدورة: هنا هذه فرصة لتطوير مهارات واستكشاف اخر تقنيات الذكاء الاصطناعي التوليدي و التعرف عليها بشكل عملي  

Prompt Engineering
NLP, البرمجة اللغوية NLP, الذكاء الاصطناعي, نماذج اللغات الكبيرة LLM

هندسة الأوامر Prompt Engineering

هندسة الأوامر من أهم التقنيات في الذكاء الاصطناعي والتي تلعب دورا كبيرا في كيفية التواصل مع النماذج اللغوية الكبيرة وتحقيق الاستفادة المرجوة.  وهي تتم من خلال إعطاء أوامر أو صياغة تعليمات مخصصة للنموذج و توجيهه لاعتماد طريقة معينة للإجابة وعرض مخرجات دقيقة وذات صلة. أهمية هندسة الأوامر: عندما نوجه النموذج بطريقة واضحة ومدروسة فهذا يزيد من احتمالية الحصول على أفضل النتائج و بدقة عالية.  تحسين دقة الإجابات: عند توجيه الأوامر للنموذج فهذا يساعد على الحصول على اجابات دقيقة ذات علاقة بالموضوع مما يقلل من الأخطاء  توفير الوقت: توفير الجهد و الوقت من خلال الحصول على الإجابة في أقل عدد من المحاولات  التوجيه لمجالات معينة: باستخدام هندسة الأوامر يمكن توجيه النموذج في مجالات عديدة تخدم قطاعات مختلفة، مثل في قطاع الاعمال خدمة العملاء, في التعليم حل المسائل التعليمية بخطوات  التحكم في إجابة النموذج: عند صياغة الأوامر و اعطاء تعليمات محددة تمكننا من التحكم في طريقة عرض الاجابات مثل طول الاجابة او مختصره, اعطاء تحليل مفصل و توضيح الخطوات, أو شرح مادة علمية لفئة معينة مثل الأطفال.   معلمات في هندسة الأوامر:  Temperature: اذا كانت درجة عالية: تجعل النموذج غير قابل للتنبؤ، وذلك يؤدي إلى تنوع أكبر في الإجابات درجة منخفضة: تجعل النموذج لديه قابلية للتنبؤ، وبالتالي تكون الإجابات دقيقة  Top-K: يحدد النموذج مجموعة محدودة من الكلمات التي من الممكن أن تظهر في الجملة التالية، مما يزيد من دقة الإجابة. Top-p:يحدد النموذج مجموعة من الكلمات تكون احتمالاتها عالية للوصول إلى الإجابة الأكثر دقة و ذات علاقة بالموضوع   تقنيات هندسة الأوامر Zero-shot:  يطلب من النموذج  مهمة لم يتدرب عليها مسبقا، ويعتمد على معرفته العامة للإجابة. مثل شرح درس عن النباتات الاطفال.  Few-shot: و هو شرح و تعليم النموذج كيفية طريقة استجابته وهيكل الإجابة. مثل عند طلب المستخدم تلخيص كتاب يكون التلخيص في خمسة جمل مختصرة عن محتوى الكتاب, و يتم تقديم عدة أمثلة مشابهة لهذا الأمر حتى يتعلم منها في طريقة إجابته تقنيات متقدمة في هندسة الأوامر System Prompt: وهي تحديد السياق العام للنموذج مما يجعل مخرجات النموذج بصيغة تم تحديدها مسبقا و ذلك لرفع دقة الإجابات و تقليل تكرارهاRole Prompt: إعطاء النموذج دورًا محاكاته مثل مرشد سياحي وتحديد الأسلوب الذي يتبعه، مثل إعطاءه سيناريوهات تحتاج إلى تفاصيلContextual Prompts: تقديم معلومات و خلفية عن موضوع معين للنموذج حول محادثة أو مهمة ما.  و الهدف منها الحصول على إجابات دقيقةStep Back Prompting: تشجيع النموذج على التفكير في الأسئلة بشكل أكبر قبل بدء الإجابة. مثل أخذ خطوة للخلف لرؤية الصورة الكبيرة للموضوع قبل تقديم الإجابةChain of Thoughts Prompting: توجيه النموذج لشرح الأسباب و التفكير المنطقي خطوة بخطوة كما يفعل الأشخاص عند حل المهام. مثل إظهار تفاصيل وخطوات الحل بدلاً من تقديم الإجابة النهائية مباشرة، مثل حل مسائل الرياضيات. و الهدف منها تحقيق دقة عالية للنموذجSelf-consistency: مبني على Chain of Thoughts، حيث يتم توليد عدة إجابات ثم اختيار الإجابة المناسبة وأكثر دقة. إذا كانت الإجابات تتكرر باستمرار، فهذا يعني أنه لا يوجد تحيز في النموذج  دورات في هندسة الأوامر   what is prompt engineering ChatGPT Prompt Engineering for Developers Prompt Engineering for ChatGPT    

Uncategorized

Mathematics in Artificial Intelligence

Learning artificial intelligence requires a solid understanding of scientific knowledge and technical skills. AI spans various scientific disciplines, including computer science, mathematics, and statistics. Gaining insight into key concepts will equip you with the foundational knowledge needed to master AI. In this article, we will simplify the essential mathematical skills that underpin AI, such as linear algebra, calculus, and statistics. Understanding these concepts is crucial for starting your learning journey in AI. Mathematical Skills in Learning AI Linear Algebra: This is crucial for data processing and representation algorithms. It helps in understanding how algorithms handle and operate on vectors and matrices. Calculus: Differential and integral calculus are fundamental in AI for improving machine learning algorithms and enabling machines to recognize changes during model training. Probability and Statistics: These skills help in understanding the nature of data during model training and assist algorithms in making predictions. They are essential for grasping data behavior and model performance. Discrete Mathematics: This helps in analyzing and calculating probabilities, which aids AI models in making logical decisions in uncertain situations. Graph Theory: Used as a tool in AI to ensure efficient performance and provide results that meet user expectations. Numerical Analysis: Assists in understanding the stability of machine learning systems and monitoring their effectiveness and robustness. Mathematical Modeling: In complex system modeling, AI technologies can learn system patterns and rules from large data sets, and apply this knowledge to image and speech recognition, time series analysis, and other areas. Cost Function: During training, the cost function measures discrepancies between expected and actual values by adjusting model parameters repeatedly using optimization techniques like gradient descent. The cost function directs the model towards reducing errors and improving accuracy.