ما سر ضعف المحتوى العربي في برامج الذكاء الاصطناعي؟ "شات جي بي تي" يجيب

جفرا نيوز - مع التقدم المثير الذي يحرزه الذكاء الاصطناعي التوليدي (Generative AI) في إنشاء الصور والأصوات والنصوص وأخيراً الفيديو، تزداد أهمية تنمية المحتوى العربي على "الويب" نظراً لأن هذا يؤدي إلى رفع مستوى الذكاء الاصطناعي التوليدي عند مخاطبته باللغة العربية، إذ يرتبط هذا المستوى بحجم المحتويات التي يتم تدريبه عليها.

ولاختبار مستوى الذكاء الاصطناعي التوليدي لـ "شات جي بي تي" عند التخاطب معه بالعربية، طلب منه ما يلي "اكتب بضع فقرات عن سوريا خلال الحرب العالمية الثانية".

وتم تكرار الطلب عدة مرات بالعربية وصيغ مختلفة، وجاءت إجاباته ركيكة بل وتضمن بعضها هلوسات، إذ قال في إحدى إجاباته "عام 1941، غزا الجيش الألماني بقيادة الجنرال إرفين رومل سوريا من الجنوب..". وعند تكرار الطلب عدة مرات أخرى ولكن بالإنجليزية جاءت الإجابات أفضل بكثير.

ولم تقتصر التجربة على السؤال السابق، بل طرحت عليه مجموعة أسئلة، مرة بالعربية ومرة بالإنجليزية، فجاءت معظم إجاباته الإنجليزية أفضل من إجاباته العربية.

وبشكل عام لا يمكن حتى الآن الاعتماد تماما على الذكاء الاصطناعي التوليدي لكتابة الموضوعات، ومن الضروري تدقيق الموضوعات التي ينتجها وتمحيص مصادر معلوماته.

"شات جي بي تي" يجيب

ولكن ما أسباب انخفاض أداء الذكاء الاصطناعي التوليدي عند مخاطبته بالعربية عن أدائه عند مخاطبته بالإنجليزية؟ طلبنا من "شات جي بي تي" نفسه الجواب على هذا السؤال، مرة بالعربية وأخرى بالإنجليزية، فكانت الأسباب التي قدمها بالإنجليزية أكثر تفصيلاً، وفيما يلي عرض لها بعد ترجمتها إلى العربية:

– توافر البيانات: قد يكون مقدار بيانات التدريب لنماذج العربية أقل مقارنة بنماذج الإنجليزية، ويمكن أن يؤثر ذلك على دقة النموذج لأنه لم يتعرض لأكبر قدر من البيانات للتعلم منها.

– السياق الثقافي: يتم التحدث بالعربية في العديد من البلدان والثقافات المختلفة، مما قد يؤثر على طريقة استخدام اللغة وفهمها. وقد لا يكون النموذج قادرا على مراعاة جميع هذه السياقات الثقافية المختلفة.

وأضاف "بشكل عام، من المهم ملاحظة أن دقة نموذج اللغة يمكن أن تختلف اعتماداً على المهمة المحددة ومجموعة البيانات التي يتم التدريب عليها. بالإضافة إلى ذلك، كلما زادت البيانات والتدريب على النموذج، زادت دقته".

وتشير الأسباب السابقة -التي أدلى بها روبوت الذكاء الاصطناعي التوليدي المذكور- إلى أن الفجوة بين الذكاء الاصطناعي عند استخدام العربية وعند استخدام الإنجليزية ستزيد مع الوقت، إلا إذا قررت الدول العربية الغنية رصد مبالغ كبيرة للاستثمار في هذا المجال.

استخدام الإنترنت بالبلدان العربية

تشير الأرقام الصادرة عن الاتحاد الدولي للاتصالات إلى أن عدد مستخدمي الإنترنت عالمياً بلغ نحو 5.3 مليارات عام 2022 بنسبة انتشار تبلغ 66% من سكان العالم، وهي نسبة قريبة من نسبة انتشار الإنترنت بالبلدان العربية البالغة 65% (نحو 300 مليون مستخدم للإنترنت من عدد السكان البالغ نحو 460 مليونا عام 2022).

لكن نسبة انتشار الإنترنت في بلدان مجلس التعاون الخليجي أعلى بكثير، إذ قاربت 100% من عدد السكان القادرين عمرياً على استخدام الإنترنت. ويشكل هذا العدد الكبير من المستخدمين قاعدة جيدة لتنمية العربية المستخدمة على الشبكة العالمية، لكن هذا مرتبط بالمحتوى العربي الرقمي الفعلي المتوفر.

المحتوى الرقمي العربي على الإنترنت

يقدر عدد المواقع الإلكترونية على "الويب" بنحو ملياري موقع، لكن ليست كل المواقع نشطة حالياً. وتشير التقديرات إلى أن أقل من 200 مليون من هذا العدد هي النشطة بالفعل. أما بالنسبة للمواقع الإلكترونية النشطة التي تتضمن العربية كلياً أو جزئياً فتقدر بنحو 4% من الإجمالي، أي 8 ملايين موقع.

وتتحسن جودة تدريب الذكاء الاصطناعي التوليدى كلما كانت القاعدة اللغوية للتدريب أكبر. لكن الأمر لا يتعلق بعدد المواقع الإلكترونية أو كمية الكلمات العربية على الإنترنت كنسبة من إجمالي المواقع أو الكلمات، بل بكمية المعلومات التي تحملها تلك المواقع والكلمات.

وبنهاية فبراير/شباط 2023، بلغ عدد الصفحات التي تستخدم العربية الفصحى على ويكيبيديا مثلا 8.029.342 في حين قدر عدد الصفحات الإنجليزية 57.698.387، أي ما يزيد على 7 أضعاف.

وبلغ إجمالي الصفحات بكافة اللغات 250.456.896 أي ما يزيد على 31 ضعفاً مقارنة بالعربية، حيث بلغت نسبة انتشار العربية الفصحى نحو 3.3% من الإجمالي.


كيف يمكن تنمية المحتوى العربي الرقمي؟

يجب أولا دعم استخدام العربية الفصحى على الشبكة العالمية، إذ إن استخدام اللهجات المحلية يضعف عمل الذكاء الاصطناعي التوليدي.

فعلى سبيل المثال يزيد عدد المقالات المنشورة على ويكيبيديا باللهجة المصرية على ما هو منشور بالعربية الفصحى، وعلى الرغم من أن عدد الصفحات المنشورة باللهجة المصرية يبلغ نحو ربع العدد المنشور بالعربية الفصحى، إلا أن هذا يشتت الذكاء الاصطناعي التوليدي.

كما يجب إنتاج المعرفة وانتقال البلدان العربية (أو بعضها على الأقل) من استهلاك المعرفة إلى إنتاجها، ومن استهلاك التكنولوجيا إلى إنتاجها.

ومن المفيد أيضا نشر هذا المنتج على الإنترنت بالعربية، وهو ما سيسهم في إغناء المحتوى العربي الرقمي ويحسن أداء الذكاء الاصطناعي التوليدي. ويضاف إلى ذلك أهمية زيادة أعمال الترجمة من اللغات الأخرى إلى العربية ونشر الترجمات على الشبكة العالمية.

وتجدر الإشارة أيضا إلى ضرورة دعم النشر الرقمي بالعربية لمقالات الرأي والمقالات الاستقصائية والبحثية والمقارنة، وتشجيع المواقع الإلكترونية على دفع ثمن معقول لكتاب هذه المقالات.