Aug 20,2022 البحث العلمي والدراسات العليا, الهندسة المعلوماتية والاتصالات

فريق DamascusTeam في ورشة NLPIF2021: مواجهة الشائعات حول وباء كوفيد-19 على تويتر باعتماد نموذج AraBERT باللغة العربية

 

الباحثون المشاركون

م. أحمد حسين – د. ندى غنيم – د. عمار جوخدار

منشور في

Proceedings of the fourth Workshop on NLP for Internet Freedom: Censorship, Disinformation, and Propaganda, co-located with the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2021), pages 93-98, June 6 2021

الملخص

الهدف من هذا العمل هو تقديم منهجية فعالة باعتماد نموذج AraBERT للغة العربية، وذلك لمحاربة الشائعات حول وباء COVID-19. تتألف المنهجية من مرحلتين: تتضمن المرحلة الأولى سلسلة من إجراءات المعالجة المسبقة لتحويل بعض المصطلحات الخاصة بتويتر، بما في ذلك الرموز التعبيرية والصور التعبيرية، إلى نص عادي، وتستخدم الخطوة الثانية نسخة من نموذج AraBERT العربي، والذي جرى تدريبه مسبقاً على نصوص عربية عادية، لضبط نموذج تصنيف التغريدات وفقاً للتصنيفات المعتمدة في الورشة. كان الدافع وراء استخدام النماذج اللغوية المدربة مسبقاً على النصوص العادية بدلاً من إعادة تدريبها على التغريدات هو ما أظهرته الأدبيات العلمية: (1) تتوفر نماذج اللغة المدربة مسبقاً على نطاق واسع في العديد من اللغات، مما يجنبنا تدريب النموذج مباشرة على التغريدات، الأمر الذي يستهلك الكثير من الوقت والموارد العتادية، وبذلك يسمح بالتركيز فقط على الضبط الدقيق لهذا النموذج، (2) تكون مجموعات النصوص العادية المتاحة أكبر من المجموعات التي تحتوي على التغريدات فقط، مما يعطي أداء أفضل.

الكلمات المفتاحية: اكتشاف الشائعات المضللة، اللغة العربية، توتير، نموذج AraBERT.

الرابط لقراءة كامل البحث

https://doi.org/10.18653/v1/2021.nlp4if-1.13