يوم الثلاثاء الاستقرار أ نشرت Static Video Spread هي أداة بحث مجانية جديدة تعمل بالذكاء الاصطناعي يمكنها تحويل أي صورة ثابتة إلى فيديو قصير بنتائج مختلطة. إنها معاينة مفتوحة الوزن لنموذجين من نماذج الذكاء الاصطناعي يستخدمان تقنية تسمى تحويل الصورة إلى فيديو، ويتم تشغيلهما محليًا على جهاز كمبيوتر مزود بوحدة معالجة الرسومات Nvidia.
في العام الماضي، أحدثت Stability AI ضجة كبيرة مع إصدار Stable Diffusion، وهو نموذج لمجموعة صور “بالأوزان المفتوحة” الذي بدأ موجة مجموعة الصور المفتوحة وألهم مجتمعًا كبيرًا من الهواة الذين طوروا التكنولوجيا مع الفروق الدقيقة المخصصة الخاصة بهم. ضبط. على الرغم من أن التكنولوجيا لا تزال في مهدها، إلا أن Stability AI يريد الآن أن يفعل الشيء نفسه مع تحرير الفيديو.
حاليًا، يتكون نقل الفيديو القياسي من نموذجين: أحدهما قادر على إنتاج فيديو مركب من صورة بطول 14 إطارًا (يسمى “SVD”)، والآخر ينتج 25 إطارًا (يسمى “SVD-XT”). يمكنها العمل بسرعات تتراوح من 3 إلى 30 إطارًا في الثانية، وإخراج مقاطع فيديو قصيرة (عادةً ما تتراوح مدتها من 2 إلى 4 ثوانٍ) بتنسيق MP4 بدقة 576 × 1024.
في اختباراتنا المحلية، استغرق إنشاء جيل مكون من 14 إطارًا على بطاقة رسومات Nvidia RTX 3060 حوالي 30 دقيقة، ولكن يمكن للمستخدمين تجربة خدمات مثل تشغيل النماذج في السحابة بشكل أسرع بكثير. وجه قابل للاحتضان و يعكس (قد تضطر إلى دفع بعضها). في اختباراتنا، كانت الرسوم المتحركة التي تم إنشاؤها عادةً ما تحتوي على جزء ثابت من المشهد وتضيف تأثيرات التحريك والتكبير/التصغير، أو تحريك الدخان أو النار. على الرغم من أن صورة غيتي التي التقطها ستيف وزنياك قد عادت إلى الحياة بعض الشيء، إلا أن الأشخاص الذين يظهرون في الصور لا يتحركون غالبًا.
(ملاحظة: باستثناء صورة Steve Wozniak Getty Images، تم إنشاء الصور المتحركة الأخرى في هذه المقالة باستخدام DALL-E 3 وتم تحريكها باستخدام نقل الفيديو القياسي.)
ونظراً لهذه القيود، تؤكد الاستدامة أن هذا النموذج لا يزال في بداياته وهو مخصص للبحث فقط. كتبت الشركة على موقعها على الإنترنت: “نحن نقوم بتحديث نماذجنا بفارغ الصبر بأحدث التطورات ونعمل على دمج تعليقاتك”، مضيفة: “هذا النموذج ليس مخصصًا للتطبيقات الواقعية أو التجارية في هذه المرحلة. السلامة ورؤيتك وتعليقاتك تعتبر حاسمة بالنسبة للجودة في تحسين هذا النموذج حتى إصداره النهائي.”
ومن الجدير بالملاحظة، ولكن ربما ليس من المستغرب، الانتشار المستمر للفيديو ورقة ابحاث على الرغم من عدم الكشف عن مصدر مجموعات بيانات التدريب الخاصة بالنماذج، استخدم فريق البحث “مجموعة بيانات فيديو كبيرة تحتوي على حوالي 600 مليون عينة”، والتي قاموا بتجميعها في مجموعة بيانات فيديو كبيرة (LVD) مكونة من 580 مليون مقطع فيديو مشروح. ويغطي 212 عاما من المحتوى.
لا يعد بث الفيديو الثابت أول نموذج للذكاء الاصطناعي يقدم هذا النوع من الوظائف. لقد قمنا بتغطية طرق تركيب فيديو الذكاء الاصطناعي الأخرى من قبل، بما في ذلك Meta وGoogle وAdobe. لقد قمنا أيضًا بتغطية ModelScope مفتوح المصدر، وما يعتبره الكثيرون أفضل نموذج فيديو يعمل بالذكاء الاصطناعي في الوقت الحالي، وهو نموذج Runway’s Gen-2 (مختبرات بيجا مزود فيديو AI آخر). ويدعي نظام Stability AI أيضًا أنه يعمل على نموذج تحويل النص إلى فيديو، مما يسمح له بإنشاء مقاطع فيديو قصيرة باستخدام تعليمات مكتوبة بدلاً من الصور.
مصدر انتشار الفيديو القياسي والأوزان انهم موجودين على GitHub، وهناك طريقة أخرى سهلة لاختباره محليًا وهي تشغيله منصة بينوكيويتعامل بسهولة مع تبعيات التثبيت ويقوم بتشغيل النموذج في بيئته الخاصة.