شريط الأخبار

الكشف عن الموقف في نصوص اللغات الطبيعية باستخدام تقنيات التعلم العميق

اسم الباحث:

المهندس: علي صلاح الدين محرز

اسم المشرف:الدكتور: ناصر أبو صالح-الدكتور: وسيم رمضان

العنوان:

الكشف عن الموقف في نصوص اللغات الطبيعية باستخدام تقنيات التعلم العميق

العنوان باللغة الإنكليزية:

Stance Detection in Natural Language Texts Using Deep Learning Techniques

العام:2024

القسم:هندسة البرمجيات ونظم المعلومات

الملخص:

إن مهمة الكشف عن الموقف هي إحدى مهام معالجة اللغات الطبيعية التي تسعى إلى تحليل النصوص الطبيعية لتحديد مواقف مؤلفيها تجاه مواضيع محددة مسبقاً. تلعب هذه المهمة دوراً مهماً في تطوير أدوات لتصفية المحتوى الرقمي من المعلومات غير الصحيحة، وبشكل خاص الأخبار الزائفة التي تملأ وسائل التواصل الاجتماعي. للأخبار الزائفة التي تبدو كالأخبار الحقيقية تأثير سلبي كبير على القراء إذ يصل هذا التأثير إلى جميع جوانب الحياة السياسية، والاقتصادية، والاجتماعية، والصحية إلخ.

على الرغم من الاهتمام الكبير الذي حظيت به مهمة الكشف عن الموقف تجاه الأخبار الزائفة في اللغة الإنكليزية إلا أن الدراسات والمقترحات عليها في اللغة العربية لا تزال محدودة جداً. يمكن تفسير ذلك بالتحديات والصعوبات التي تعتري المعالجة الحاسوبية للغة العربية من ندرة موارد هذه اللغة، وغموضها الإملائي، وتعقيدها المورفولوجي، وتنوع لهجاتها.

تندرج الخوارزميات المقترحة في الدراسات السابقة في هذه المهمة تحت مظلة مجال تعلم الآلة. على الرغم من سهولة تفسير الخوارزميات القائمة على هندسة الميزات إلا أنها تعاني من ضعف في الأداء وفي القدرة على التعميم. بالإضافة إلى ذلك، تعاني نماذج التعلم العميق من تحديات عدة لعل أبرزها صعوبة تفسير قرارات النموذج، وانخفاض أدائه كلما ازداد طول الدخل، وتركيزه الكبير على إشارة الكلمات في عملية التصنيف.

تهدف هذه الدراسة إلى تعزيز كفاءة نماذج الكشف عن الموقف في النصوص العربية، مع التركيز على نماذج الكشف عن الموقف تجاه الأخبار الزائفة، وذلك من خلال تحليل أداء نماذج التعلم العميق التي تتضمن نماذج التعلم العميق الأساسية، ونماذج اللغة المتعددة اللغات، ونماذج اللغة العربية بالإضافة إلى تطوير تقنيات جديدة لتحسين أداء هذه النماذج.

تقدم الدراسة عدداً من الإسهامات يمكن تلخيصها في: (1). تقييم أداء نماذج التعلم العميق الأساسية، ونماذج اللغة المتعددة اللغات، ونماذج اللغة العربية على المهمة، (2). تحليل أخطاء النماذج المدروسة وتسليط الضوء على توجهات تحسين أدائها، (3). اقتراح منهجية Enhanced Stance Detection using Multi-lingual Bidirectional Encoder Representations from Transformers (ESDM-BERT) التي تحسن من أداء النموذج Multi-lingual Bidirectional Encoder Representations from Transformers (M-BERT) على المهمة في اللغة العربية.

توصلت الدراسة إلى النتائج الآتية: (1). قدرة المحولات المتعددة اللغات على فهم اللغة الإنكليزية بشكل أكبر من اللغة العربية وإمكانية تحسين أدائها عن طريق التدريب على مجموعات بيانات متعددة وعن طريق الترجمة. (2). عند تدريب نموذج لغة خاص بمهمة الكشف عن الموقف تجاه الأخبار الزائفة في اللغة العربية، لا بد من تدريبه على مهمة نموذج اللغة المقنع بالاعتماد على نصوص مكتوبة في اللغة العربية الفصحى. (3). عند الاعتماد على منهجية ESDM-BERT المقترحة، تبين أن فلترة الأشعة السياقية الناتجة عن طبقة M-BERT الأخيرة باستخدام الشبكة العصبية التلافيفية المقترحة يحسن من أداء M-BERT بمقدار 1,71% macro f1-score، (4). وأن فلترة الأشعة السياقية الناتجة عن طبقات M-BERT الأربعة الأخيرة بالاعتماد على الشبكة نفسها يحسن من أداء M-BERT بمقدار 2,16%.

يوجد مسارات بحثية عدة يمكن العمل عليها في المستقبل منها الاعتماد على تقنيات التعلم المنقول للتغلب على محدودية مجموعات بيانات المهمة في اللغة العربية إذ تسمح هذه التقنيات بتطوير نماذج قادرة على نقل المعرفة عبر اللهجات، وأنواع النصوص، والأهداف، والمواضيع. بالإضافة إلى ذلك، من الممكن تحسين أداء نماذج تعلم الآلة عن طريق الاعتماد على مفاهيم تعلم أخرى مثل تعلم المجموعة والتعلم متعدد المهام، وبالتالي من الممكن البحث عن مفاهيم تعلم وتصنيف جديدة تساعد في الحد من الصعوبات التي تواجه نماذج تعلم الآلة على المهمة.

الكلمات المفتاحية: الكشف عن الموقف – الكشف عن الأخبار الزائفة – اللغة العربية – معالجة اللغات الطبيعية – التعلم العميق – تعلم الآلة.

تحميل البحث