ما خفايا التزييف الصوتي العميق؟

Friday-2024-03-08 09:13 pm

جفرا نيوز -

جفرا نيوز - أدّى انتشار الذكاء الاصطناعي وسهولة الوصول إلى الأدوات القادرة على تغيير الحقيقة، إلى ظهور واحدة من أكثر تقنيات التلاعب الرقمي إثارة للصدمة والقلق، وهي "التزييف العميق/Deepfake".

وتتيح تقنية "التزييف العميق" إنشاء مقاطع فيديو وصور وأصوات مزيفة تُظهر أفرادًا يقولون أو يفعلون أشياء لم يقولوها أو يفعلوها أبدًا، وعلى الرغم من أن النسخة الأكثر انتشارًا حتى وقت قريب كانت الفيديو، إلا أن التزييف الصوتي العميق يكتسب أهمية يومًا بعد يوم.

لمحة تاريخية

وكان أول برنامج رئيس جلب إمكانية توليد التزييف الصوتي العميق لعامة الناس هو "Adobe Voco" في العام 2016، الذي استخدم الذكاء الاصطناعي لتقليد صوت الشخص من تسجيل قصير.

وجرى إلغاء البرنامج بعد أن تبين أنه يمكن استخدامه لإنشاء أصوات مزيفة مضللة وخطيرة، ومنذ ذلك الحين، أدى التقدم في تكنولوجيا الشبكات العصبية إلى تمكين عمليات التزييف الصوتي الواقعية والمقنعة بشكل متزايد.

وفي الوقت الحاضر، يمكننا العثور على العديد من التطبيقات والأدوات عبر الإنترنت التي تستخدم هذه التكنولوجيا لإنشاء أصوات مزيفة، حيثُ أطلقت "مايكروسوفت" نموذجًا للذكاء الاصطناعي يسمّى "VALL-E" يمكن تقليد الصوت البشري بتسجيل مدته 3 ثوانٍ فقط.

التزييف الصوتي العميق

وتهدف تقنية التزييف الصوتي العميق إلى إنشاء نموذج صوتي قادر على تكرار صوت الشخص المتحدث الفعلي، لكن يجب تدريب النموذج من خلال التسجيلات الصوتية للمتحدث، من أجل أن يصبح جاهزًا لتوليد صوت اصطناعي يشبه صوت الشخص الأصلي.

ويتم استخدام تقنيات التعلم العميق ومعالجة اللغة الطبيعية لتحليل الأنماط والخصائص الفريدة للصوت، حيثُ تتضمن بعض هذه الخصائص درجة الصوت والسرعة والإيقاع واللهجة، ويستخدم الذكاء الاصطناعي التسجيلات لتقديم صوت أصلي، مما يؤدي إلى إنشاء تسجيل صوتي جديد يحاكي صوت المتحدث بدرجة كاملة.

طريقة إنشاء التزييف الصوتي العميق

ويتم إنشاء صوت عميق مزيف باستخدام تقنية تحويل النص إلى كلام المدعومة بالذكاء الاصطناعي، ويمكن القيام بذلك مع بضع دقائق فقط من الكلام المسجل لتدريب نموذج خطاب الذكاء الاصطناعي، الذي يمكنه قراءة أي نص بالصوت المستهدف.

ويجب أن يكون الصوت المسجل الأصلي بجودة كافية لأخذ عينات من الخصائص الفريدة لصوت المتحدث، من بعدها تقوم خوارزميات الذكاء الاصطناعي بتحليل أنماط وخصائص الصوت الأصلي وتتعلم تقليدها.

ويمكن أن يتم ذلك مع أصوات الذكور والإناث والتكييف مع هوية المتحدث، والنتيجة هي تسجيل صوتي مزيف يحاكي صوت الشخص الأصلي، وبالإضافة إلى توليد الكلام، يمكن لهذه الأدوات محاكاة الأصوات مثل التنفس وحركات الفم.

مبادرات لمكافحة التزييف الصوتي

وتوجد مبادرات تهدف إلى مكافحة هذه التزييف الصوتي المنتشر بشكل متزايد، ويمكن لبعض التقنيات كشف هذه المنتجات المزيفة، مثل القياسات الحيوية الصوتية، وهي طريقة مصادقة تستخدم نمط الصوت الفريد للشخص للتحقق من هويته.

ويتضمن هذا النمط خصائص مثل نبرة الصوت وطبقته، وسرعة الكلام، والنطق، ولاستخدام القياسات الحيوية الصوتية، يجب التقاط صوت الشخص، وبعد ذلك، يتم تحليل خصائصه الفريدة بالإضافة إلى طول الكلمات.

وتتم مقارنة هذه الخصائص بالملف الصوتي لتحديد التزييف، ويمكن استخدام التحليل الطيفي أيضًا، وهو يتألف من تحليل الإشارات الصوتية للكشف عن أنماط الصوت الفريدة التي يصعب تكرارها في التزييف العميق.

كما أن هناك أدوات يمكنها كشف الآثار الرقمية الموجودة في التزييف الصوتي العميق، لأن الأخير يفشل في محاكاة جميع المتغيرات بدقة للتسجيل الصوتي الفعلي، وبالتالي، قد يحتوي التزييف العميق على فواصل في الصوت أو ضوضاء في الخلفية تختلف عن تلك المتوقعة في الصوت الأصلي.