ذكاء اصطناعي جديد من جوجل يحول النص إلى فيديو

أصبحت أنظمة الذكاء الاصطناعي التي تحول النص إلى صور قديمة بالفعل. الآن ما يتطلبه الأمر هو تحويل نص إلى فيديو. تتبع Google خطى Meta باستخدام Image Video.


قدمت Google اليوم Image Video، ذكاءها الاصطناعي الجديد الذي يحول النص إلى فيديو. يبدو وكأنه رد على Make-a-video ، Meta AI الذي يفعل الشيء نفسه، والذي تم تقديمه قبل بضعة أيام.


ذكاء اصطناعي جديد من جوجل يحول النص إلى فيديو


تُحدث نماذج الانتشار المطبقة على التعلم الآلي ثورة في الذكاء الاصطناعي القائم على الصور. لقد رأينا بالفعل بعض أنظمة الذكاء الاصطناعي المشهورة جدًا التي تنشئ صورًا من النص، مثل DALL-E أو Stable Diffusion. ولكن الآن يأتي الجيل الثاني، الذي ينشئ مقاطع فيديو من النص.


قبل بضعة أسابيع، قدمت ميتا Make-a-video، واليوم جوجل تفعل الشيء نفسه مع Image Video، وهو ذكاء اصطناعي جديد يحول النص إلى فيديو. في نسخته الأولى، تقوم بإنشاء مقاطع فيديو بدقة 1280×768 بكسل، و 24 إطارًا في الثانية.


نماذج الانتشار هي نماذج توليدية، أي أنها تولد بيانات جديدة من البيانات التي تم تدريبها عليها.


ما يفعلونه هو تدمير البيانات إلى أجزاء صغيرة يمكن التحكم فيها، ثم إعادة بنائها حسب الحاجة.


على سبيل المثال، إذا كتبت الجملة: "فيل يرتدي قبعة الحفلة يمشي على طول قاع البحر" ، يقوم الذكاء الاصطناعي بتفكيك الجملة لاستخراج كلمات رئيسية مثل "فيل" أو "قبعة الحفلة" أو "قاع البحر". ، ويبحث في قاعدة بياناته عن الصور التي تفي بهذا الوصف، ويخلطها باستمرار للحصول على صورة أو مقطع فيديو مع ما تطلبه العبارة:



في حالة Image Video، يقوم أولاً بإنشاء فيديو منخفض الدقة 24×48 بكسل بمعدل 3 إطارات في الثانية وقياسه تدريجيًا بدقة أعلى وإطارات أكثر، حتى الحصول على مقاطع فيديو بدقة 1280×768 بكسل بمعدل 24 إطارًا في الثانية، وطوله حوالي 5 ثوانٍ.


إنه قادر على إنتاج مقاطع فيديو تحاكي مشاهير الفنانين وأنماط مختلفة من الرسوم المتحركة.



كما يوضح Ars Technica، تم تدريب Image Video باستخدام بنك الصور LAION-400M، المكون من أكثر من 400 مليون صورة. أضافت  جوجل 14 مليون مقطع فيديو.


لسوء الحظ، يؤدي هذا إلى نتائج تكون أحيانًا عنصرية أو تمييزية.


لهذا السبب قررت جوجل، في الوقت الحالي، أنها لن تجعل هذا الذكاء الاصطناعي عامًا. تريد تطبيق سلسلة من المرشحات أولاً لتجنب النتائج المثيرة للجدل.


يعد Image Video، وهو ذكاء جوجل الاصطناعي الذي يحول النص إلى فيديو، بتأثير إعلامي مشابه لـ DALL-E. لكن في الوقت الحالي، يتعين علينا أن نكتفي بالنظر في الأمثلة الموجودة على موقع الويب الخاص بهم.


إرسال تعليق

أحدث أقدم