Aug 20,2022 البحث العلمي والدراسات العليا, الهندسة المعلوماتية والاتصالات

نموذج توصيف الصور باعتماد الانتباه وسمات الأغراض لمحاكاة فهم البشر للصور

الباحثون المشاركون

م. محمد عبد الهادي الملا – د. آصف جعفر – د. ندى غنيم

منشور في

Journal of Big Data, volume 9, article number 20, February 2022.

 

الملخص

يقع توصيف الصور ضمن مجالي الرؤية الحاسوبية ومعالجة اللغات الطبيعية. تعمل مهمة توصيف الصور على تعميم مهمة تعرّف الأغراض، التي يكون فيها التوصيف كلمة واحدة. حالياً، تركز معظم الأبحاث في مجال توصيف الصور على تقنيات التعلم العميق، وخاصة نماذج Encoder-Decoder مع استخلاص السمات باعتماد الشبكات العصبونية التلافيفية (CNN). ومع ذلك، فقد حاول البعض استخدام سمات تعرف الأغراض لزيادة جودة التوصيف النصي للصور. تقدم هذه الورقة بنية عميقة باعتماد الانتباه، ونموذج Encoder-Decoder، تستفيد من السمات التلافيفية المستخرجة من نموذج CNN (Xception) والمدرب مسبقاً على مجموعةImageNet ، جنباً إلى جنب مع سمات الأغراض المستخلصة من نموذج YOLOv4، والمدرب مسبقاً على مجموعة MS COCO. تقدم هذه الورقة أيضاً مخطط ترميزٍ موضعيٍ جديد لسمات الغرض، وهو "عامل الأهمية". تم اختبار نموذجنا على مجموعتي المعطيات MS COCO و Flickr30k، وتمت مقارنة أدائه مع الأعمال السابقة. يرفع نظام استخراج السمات الجديد لدينا درجة CIDEr بنسبة 15.04٪.

الكلمات المفتاحية: توصيف الصور، سمات الغرض، ترميز الموقع، نموذج Encoder-Decoder.

الرابط لقراءة كامل البحث

https://doi.org/10.1186/s40537-022-00571-w