0
في ظل الزيادة غير المسبوقة في محتوى الفيديو عبر الإنترنت، أصبحت الحاجة إلى أنظمة فعالة للكشف التلقائي عن العنف أمرًا بالغ الأهمية. هذا الأمر مهم بشكل خاص نظرًا لأن التعرض للعنف يمكن أن يؤثر بشكل كبير على الصحة النفسية للأفراد الذين يشاهدون مثل هذا المحتوى.
في هذه الدراسة، تم اقتراح إطار عمل موجه بالصوت والصورة للكشف عن العنف يستخدم مدخلات الصوت والفيديو لتحديد العنف بدقة في مجموعة واسعة من مقاطع الفيديو وتنبيه المستخدم في الوقت الحقيقي. الهدف من هذه الدراسة هو جمع المدخلات من مجموعة متنوعة من المصادر ومعالجة مدخلات الفيديو والصوت باستخدام تقنيات رؤية الكمبيوتر (computer vision) ومعالجة الإشارات (signal processing) على التوالي.
يتم الاستفادة من ميزات هذه الأنماط لتصنيف الأحداث على أنها عنيفة (Violent) أو غير عنيفة (Non-violent) ومن ثم تحديد النوع المحدد من العنف باستخدام نماذج التحويل العميق (deep learning transformer models). يعمل هذا الإطار في الوقت الحقيقي ويمكن توسيعه لمراقبة وسائل التواصل الاجتماعي أو أنظمة المراقبة مع عدة كاميرات وميكروفونات في آن واحد، مما يجعله مثاليًا للتطبيقات الكبيرة في العالم الحقيقي.
تم إجراء تحليل شامل، حيث تم تنفيذ نموذج صوت وفيديو، وتمت ملاحظة أن هذا الحل قد تفوق على معظم الطرق التقليدية للكشف عن العنف في مجموعة بيانات XD-Violence، كما يتضح من مقاييس الدقة.