نان ريو / مجموعة فيجوال تشاينا / جيتي إيماجيس
تم التعرف على شركة مايكروسوفت في 19 مارس 2023 في مقر الشركة في سياتل، واشنطن.
نيويورك
سي إن إن
—
بفضل تقنية الذكاء الاصطناعي الجديدة التي طورتها مايكروسوفت، أصبح بإمكان الموناليزا الآن أن تفعل أكثر من مجرد الابتسام.
في الأسبوع الماضي، وصف باحثو مايكروسوفت نموذجًا جديدًا للذكاء الاصطناعي قاموا بتطويره والذي يمكنه التقاط صورة ثابتة لوجه شخص ما ومقطع صوتي لشخص يتحدث وإنشاء مقطع فيديو واقعي لذلك الشخص تلقائيًا. يمكن إنشاء مقاطع فيديو من وجوه متحركة أو رسوم متحركة أو أعمال فنية – كاملة مع مزامنة الشفاه الجذابة وحركات الوجه والرأس الطبيعية.
وفي مقطع فيديو تجريبي، أظهر الباحثون كيف قاموا بتحريك لوحة الموناليزا لتغني أغنية راب كوميدية للممثلة آن هاثاواي.
يتم استدعاء المخرجات من نموذج الذكاء الاصطناعي فاسا-1، مسلية ومزعجة بعض الشيء في أصالتها. وقالت مايكروسوفت إن التكنولوجيا يمكن استخدامها للتعليم أو “لتحسين إمكانية الوصول للأفراد الذين يعانون من تحديات التواصل” أو لإنشاء رفاق افتراضيين للبشر. ولكن من السهل أن نرى كيف يمكن إساءة استخدام هذه الأداة واستخدامها لانتحال شخصية أشخاص حقيقيين.
هذا مصدر قلق يتجاوز مايكروسوفت: تظهر المزيد من الأدوات لإنشاء الصور ومقاطع الفيديو والصوت التي يتم إنشاؤها باستخدام الذكاء الاصطناعي. الخبراء يشعرون بالقلق يمكن أن يؤدي سوء استخدامها إلى أشكال جديدة من المعلومات الخاطئة. ويشعر البعض أيضاً بالقلق من أن التكنولوجيا سوف تؤدي إلى المزيد من تعطيل الصناعات الإبداعية، من الأفلام إلى الإعلانات.
في الوقت الحالي، تقول مايكروسوفت إنها ليس لديها خطط فورية لإصدار نموذج VASA-1 للجمهور. تشبه هذه الخطوة الطريقة التي يتعامل بها شريك Microsoft OpenAI مع المخاوف أداة الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعيSora: قامت OpenAI بالتشويق لـ Sora في فبراير، لكنها حتى الآن لم تجعلها متاحة لأغراض الاختبار إلا لعدد قليل من المستخدمين المحترفين وأساتذة الأمن السيبراني.
وقال باحثو مايكروسوفت في تدوينة: “نحن نعارض أي سلوك يؤدي إلى إنشاء محتوى كاذب أو ضار من قبل أشخاص حقيقيين”. لكنهم أضافوا أن الشركة “ليس لديها خطط لإصدار المنتج علنًا حتى نكون واثقين من أن التكنولوجيا سيتم استخدامها بشكل مسؤول ووفقًا للوائح المناسبة”.
وقال الباحثون إن نموذج الذكاء الاصطناعي الجديد من مايكروسوفت تم تدريبه على عدة مقاطع فيديو لوجوه الأشخاص أثناء التحدث، وهو مصمم “للتعرف على حركات الوجه والرأس الطبيعية، بما في ذلك حركة الشفاه، والتعبير (غير الشفاه)، ونظرة العين، والرمش”. عندما يقوم VASA-1 بتحريك صورة ثابتة، تكون النتيجة فيديو نابض بالحياة للغاية.
على سبيل المثال، في مقطع فيديو تجريبي، يكون للوجه المتكلم جبين وشفتين مجعدتين، وفي مقطع يظهر فيه شخص يصدر صوتًا مضطربًا أثناء لعب ألعاب الفيديو.
يمكن توجيه أداة الذكاء الاصطناعي لإنشاء مقطع فيديو حيث ينظر الموضوع في اتجاه معين أو يعبر عن مشاعر معينة.
عند الفحص الدقيق، لا تزال هناك دلائل على أن مقاطع الفيديو تم إنشاؤها آليًا، مثل الرمش العرضي وحركات الحاجب المبالغ فيها. لكن مايكروسوفت تعتقد أن نموذجها “يتفوق بشكل كبير” على الأدوات الأخرى المشابهة و”يمهد الطريق للمشاركة في الوقت الفعلي مع صور رمزية نابضة بالحياة تحاكي سلوكيات المحادثة البشرية”.