فريق DamascusTeam في ورشة NLPIF2021: مواجهة الشائعات حول وباء كوفيد-19 على تويتر باعتماد نموذج AraBERT باللغة العربية
|
الباحثون المشاركون |
م. أحمد حسين – د. ندى غنيم – د. عمار جوخدار |
|
منشور في |
Proceedings of the fourth Workshop on NLP for Internet Freedom: Censorship, Disinformation, and Propaganda, co-located with the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2021), pages 93-98, June 6 2021 |
|
الملخص |
الهدف من هذا العمل هو تقديم منهجية فعالة باعتماد نموذج AraBERT للغة العربية، وذلك لمحاربة الشائعات حول وباء COVID-19. تتألف المنهجية من مرحلتين: تتضمن المرحلة الأولى سلسلة من إجراءات المعالجة المسبقة لتحويل بعض المصطلحات الخاصة بتويتر، بما في ذلك الرموز التعبيرية والصور التعبيرية، إلى نص عادي، وتستخدم الخطوة الثانية نسخة من نموذج AraBERT العربي، والذي جرى تدريبه مسبقاً على نصوص عربية عادية، لضبط نموذج تصنيف التغريدات وفقاً للتصنيفات المعتمدة في الورشة. كان الدافع وراء استخدام النماذج اللغوية المدربة مسبقاً على النصوص العادية بدلاً من إعادة تدريبها على التغريدات هو ما أظهرته الأدبيات العلمية: (1) تتوفر نماذج اللغة المدربة مسبقاً على نطاق واسع في العديد من اللغات، مما يجنبنا تدريب النموذج مباشرة على التغريدات، الأمر الذي يستهلك الكثير من الوقت والموارد العتادية، وبذلك يسمح بالتركيز فقط على الضبط الدقيق لهذا النموذج، (2) تكون مجموعات النصوص العادية المتاحة أكبر من المجموعات التي تحتوي على التغريدات فقط، مما يعطي أداء أفضل. الكلمات المفتاحية: اكتشاف الشائعات المضللة، اللغة العربية، توتير، نموذج AraBERT. |
|
الرابط لقراءة كامل البحث |