تلخيص النصوص العربية باستعمال نهج التعلم العميق

  • 10 Jul 2021
  • الأبحاث المنشورة مؤخراً باسم الجامعة - المعلومات والاتصالات

الباحثون المشاركون

ملهم المالح – د. محمد سعيد دسوقي

منشور في

Journal of Big Data, Volume 7, Article number 109, December 2020.


الملخص

  شهدت معالجة اللغات الطبيعية تقدماً ملحوظاً مع تطور تقنيات التعلم العميق. واستعمل تلخيص النصوص كغيره من المهام مثل ترجمة النصوص وتحليل المشاعر، نماذج الشبكات العصبونية العميقة لتحسين النتائج. تعتمد الطرائق الحديثة في تلخيص النصوص على إطار عمل سلسلة إلى سلسلة الخاص بنموذج المرمز ومفكك الترميز المكون شبكات عصبونية جرى تدريبها على كلٍّ من المدخلات والمخرجات. تستفيد الشبكات العصبونية العميقة من المجموعات الضخمة من المعطيات لتحسين النتائج. وتدعم هذه الشبكات آلية التنبه التي يمكن أن تتعامل مع نصوص طويلة بفعالية أكبر عن طريق تحديد نقاط تركيز ضمن النص. كما تدعمها آلية النسخ التي تسمح للنموذج بنسخ كلمات مباشرةً من المصدر إلى التلخيص. نعيد في هذا البحث تنجيز نموذج التلخيص الأساسي الذي يطبِّق إطار العمل سلسلة إلى سلسلة، على اللغة العربية التي لم تشهد توظيف هذا النموذج في التلخيص قبل الآن. بدأنا أولاً ببناء مجموعة معطيات عربية من عناوين تلخيصية لمقالات. تتألف مجموعة المعطيات هذه من 300 ألف مدخل تقريباً، يتضمن كل منها مقدمة المقال والعنوان المرفق بها. ثم نطبِّق نماذج تلخيص أساسية على مجموعة المعطيات السابقة ونقارن النتائج مع مقياس روج ROUGE.

الكلمات المفتاحية: معالجة اللغات الطبيعية - تلخيص النصوص - التعلم العميق - المعطيات الكبيرة - إطار العمل سلسلة إلى سلسلة.

الرابط لقراءة كامل البحث

https://doi.org/10.1186/s40537-020-00386-7