الرئيسيةمنوعات

اتاحة شركتا «InstaDeep و iCompass» أوّل نموذج لغوي في العالم موجّه للّهجة التونسيّة يعتمد على الذّكاء الاصطناعي بهدف تشجيع الابتكار

اتاحة شركتا «InstaDeep و iCompass» أوّل نموذج لغوي في العالم موجّه للّهجة التونسيّة يعتمد على الذّكاء الاصطناعي بهدف تشجيع الابتكار

أعلنت شركتا InstaDeep و iCompass المتخصّصتان في الذّكاء الاصطناعي أنهما تتيحان TunBERT، نموذجهما المفتوح المصدر الأول لمعالجة اللّغات الطبيعية النادرة في العالم، وتحديدا اللهجة التونسية.

TunBERT، هو نموذج لغوي موجّه للغة العاميّة التونسيّة، و قد تم تدريبه لتحليل عدّة مهام، من بينها تحليل المشاعر، تصنيف الّلهجات والإجابة عن الأسئلة. 

 يجدر بالذكر أن العقد الأخير شهد تطورا هاما للأنظمة التكنولوجية في تونس و تحول الى ظاهرة اقتصادية مهمة في شمال إفريقيا. من خلال إتاحة TunBERT، تسعى شركتا InstaDeep و iCompass لتمهيد الطريق لمزيد من البحث والتّطوير في مختلف المجالات، ودفع عجلة الابتكار من خلال توفير أنظمة متطورة للبناء عليها. حيث تهدف هذه المبادرة التي ترتكز على أحدث الخوارزميات والتقنيات في المعالجة الالية للغة لتعزيز البحث في مجال الذكاء الاصطناعي الذي يشهد بدوره نموا سريعا في تونس. 

“نحن متحمسون جدا لإطلاق TunBERT، مشروع مشترك بين شركتي iCompass و InstaDeep، يعيد تعريف ما تم التوصّل إليه من أبحاث علميّة موجّهة للّهجة التونسية. و يسعدنا من خلال هذا العمل تسليط الضوء على النتائج الإيجابية الممكن التوصّل إليها بتضافر جهود الشركات الرائدة في مجال الذكاء الاصطناعي، و كل  النّفع العائد على البيئة التكنولوجية في تونس. ” كما يقول أحد مؤسسي و المدير التنفيذي لشركة InstaDeep، كريم بقير.

التغلّب على اختلاف اللّهجات وسوء فهمها 

“يسعدنا أن نجعل النتائج التي توصّلنا إليها متاحة للجميع حيث تمّ رصد القليل جدًا من الأبحاث حول اللّغات النادرة  في العالم. على وجه الخصوص، التفسير الخاطئ للهجات المختلفة يمثّل تحديًا كبيرًا اليوم حيث تتميّز اللّغة العربيّة، على سبيل المثال، بتنوعها الشّديد إذ تتفرع لعدّة لهجات إقليميّة، ممّا يجعل معالجتها باستعمال برمجيّات معالجة اللّغات الطبيعيّة صعبا. واللّهجة التّونسية خاصةً” يشرح أحد مؤسسي والمدير التقني لشركة iCompass الدّكتور حاتم حدّاد.  

تعزيز التنوع والتمثيل الأفضل لجميع الأشخاص – ولغاتهم -بشكل عادل أمر بالغ الأهمية لتطوير الذكاء الاصطناعي في المستقبل . 

TunBERT نال إهتمام العديد في تونس وفي العالم إثر إعلان الشركتين تعاونهما في شهر مارس الفارط. تم عرض النموذج المطوّر خلال محاضرة قام بتقديمها كلّ من الدكتور حاتم حدّاد، المدير الفنّي لشركة iCompass و نورشان الفرشيشي، مهندسة في الذكاء الاصطناعي في شركة InstaDeep خلال مؤتمر “chipmaker NVIDIA’s annual GPU Technology Conference GTC”، في مارس الفارط. 

يتحدّث 12 مليون شخص اللّهجة التونسيّة ، و هي مرتبطة ارتباطًا وثيقًا بلهجات شمال إفريقيا التي يتحدّث بها حوالي 105 مليون شخص.  اكبر تحد يتعلّق باللّهجة التونسية هو أنها لغة دارجة وغير رسميّة. تعتبر أيضًا لغة ضعيفة الموارد مقارنة باللغات الأخرى (مثل الإنجليزية)، بسبب ندرة البيانات التونسيّة المتاحة. وبسبب الاختلافات والتفسيرات العديدة، لذا يمكن بسهولة أن يساء الفهم عند ترجمة اللّغة، ممّا ينتج عنه ردود أفعال سلبيّة من قبل متحدّثي اللّغة العربية الآخرين. على سبيل المثال:

الجملة بلهجة عربية

ترجمتها إلى الإنجليزية

تفسيرها باللهجة التونسية

وين احصل على جلبيات و عبايات كشخة؟

Where can I find dresses and pretty cloaks?

Where can I find dresses and ugly cloaks?

عندي شقيقة

I have a sister

I have a headache

 

 

للتغلّب على هذه التحديات، أنشأ فريق  بحث InstaDeep و iCompass مجموعة بيانات جمعت من مواقع التواصل الاجتماعي، بحجم 67.2 ميجابايت. قد يبدو حجم مجموعة البيانات صغيرًا، لكنه أثبت أنه كافٍ لتحقيق نتائج متميزة باستخدام نموذج عال الأداء. إلى جانب ذلك ، استخدم الفريق مجموعة تطبيقات NVIDIA NeMo ، مستفيدًا من نموذج BERT الذي تمّ تحسينه بواسطة NVIDIA لتدريب TunBERT  على البيانات التونسيّة.

 

 

لتقييم أداء النّموذج اللّغوي، أجرى الفريق تجارب معيارية مع ستّ مجموعات من البيانات لثلاث مهام : تحليل المشاعر، التعرّف على اللّهجات والإجابة على الأسئلة.

 

لنلقي نظرة على كل مهمّة والنتائج التي حقّقها فريق البحث.  

عند ضبطها على مجموعات البيانات، حقّق TunBERT نتائج مبهرة في المهام الثلاثة. مقارنة بالنماذج الأكبر مثل m-BERT و GigaBERT و AraBERT ،حيث يُظهر TunBERT تمثيلًا أفضل لكلمات اللّهجة التونسية وأداءً أحسن، و يظلّ أقل تكلفة من الناحية الحسابيّة. 

تحليل المشاعر 

لتحليل المشاعر، قام الفريق بمقارنة أداء TunBERT مقابل نماذج متعدّدة بما في ذلك Word2Vec Doc2Vec والنماذج القائمة على BERT مثل m-BERT و GigaBERT و AraBERT. وأظهرت النتائج أنّ TunBERT يتفوّق في الأداء على هذه النّماذج بفارق كبير في الدّقة، من خلال استخدام مقاييس الـ accuracy و F1 macro.

 

 توضّح الأمثلة الموجودة في الجدول أسفله نتائج النّموذج اللغوي على عيّنة من مجموعة الاختبار. يظهر أن النموذج قادر على التعرّف والتمييز بين التعليقات الإيجابيّة والسلبيّة بشكل صحيح.  

امثلة باللهجة التونسية

الترجمة إلى الإنجليزية

النتيجة

واحد ماصط لاصط قعر موش متربي ميجيش ربع فنان

He is rude, he can’t be considered an artist

0 (سلبي)

تعجبني وتشرف التمثيل والمسرح في تونس ربي يوفقها

I like her, she is a great Tunisian actress, may God bless her

1 (ايجابي)

التعرف على اللهجات

أمّا بالنسبة لمهمّة التعرف على اللّهجات، قام الفريق ببناء مجموعتي بيانات جديدتين (TAD) و (TADI) ، لقياس أداء TunBERT مقابل m-BERT و GigaBERT و AraBERT باستخدام مجموعة بيانات الاختبار الخاصّة بهم. تظهر النتائج أن TunBERT تفوّق بدرجة كبيرة على جميع النماذج اللغويّة التي تمّ ذكرها سابقا. هذا يسلّط الضوء على التأثير الإيجابي لوجود نموذج لغوي قائم على لهجة أو لغة معينة. أيضًا، أثبت التدريب باستخدام بيانات تحتوي على ضجيج بدلاً من “البيانات الخالية من الضجيج” أنه مفيد في هذه الحالة.

 

 

يسلّط الجدول التالي الضوء على قدرة TunBERT على التفرقة بين اللّهجة التونسية و اللّهجة المصريّة، على الرّغم من أنه يمكن كتابة كلتا اللهجتين بطريقة متشابهة جدًا.

 

أمثلة

الترجمة إلى الإنجليزية

النتيجة

التفكير في الزحمة الي هلاقيها قادر يخليني استنى لبعد العيد عادي

Thinking about the crowds that I will find can make me wait until after Eid

0 (لهجة غير تونسية)

مرا وعليها الكلام

A great woman

1 (لهجة تونسية)

الإجابة على الأسئلة

أما بالنسبة لمهمّة الإجابة على الأسئلة،  أنشأ الفريق مجموعة بيانات “فهم القراءة التونسية” (TRCD)، وقد تمت مقارنة أداء TunBERT مقابل m-BERT GigaBERT وAraBERT، بعد إضافة تدريب أوّ‎لي  على مجموعة بيانات فهم القراءة باللّغة العربية الفصحى.

 

 

 

يعرض الجدول التالي نتائج TunBERT عند اختباره على أسئلة من نسخة الدّستور التونسي باللّهجة التونسية. توضّح النتائج قدرة النموذج على فهم السؤال وسياق الفقرة المحدّدة.

 

اللهجة التونسية

الترجمة إلى الإنجليزية

السؤال

شكون ترجم الدستور؟

Who translated the constitution?

السياق

الجمعية التونسية للقانون الدستوري جمعية علمية و الناس الي ترجمو الدستور باللغة الدارجة أساتذة متاع قانون

The Tunisian association of constitutional law is a scientific association and people who translated the constitution to the dialect are law professors

بشكل عام، تفوّقت النتائج التي حقّقها TunBERT على الأبحاث السابقة في هذا المجال. تشير النتائج التجريبية إلى أن النموذج اللغوي TunBERT والمُدرّب على بيانات صغيرة، تنتج عنه تحسينات ملموسة ، مقارنة بنماذج اللّغة الأخرى المستندة إلى BERT والمدرَّبة على بيانات ضخمة.

من خلال جعل النموذج مفتوح المصدر، بالإضافة إلى البيانات المنشئة حديثًا، سيتابع فريقا InstaDeep و iCompass بكل حماس الإنجازات القادمة المبنية على  TunBERT من قبل الباحثين في مجال الذكاء الاصطناعي في أفريقيا والعالم العربي.

COMMENTS