تقدم OpenAI نموذجًا جديدًا لتوليد الفيديو يسمى Sora. ال تقول شركة الذكاء الاصطناعي Sora “يمكن إنشاء سيناريوهات واقعية وخيالية من التعليمات النصية.” يتيح نموذج تحويل النص إلى فيديو للمستخدمين إنشاء مقاطع فيديو متحركة تصل مدتها إلى دقيقة واحدة، كل ذلك بناءً على تعليماتهم المكتوبة.
وفقًا لمنشور مدونة OpenAI التمهيدي، يستطيع Sora إنشاء “مشاهد معقدة بشخصيات متعددة، وأنواع محددة من الحركات، وتفاصيل دقيقة للأشياء والخلفيات”. تشير الشركة إلى أن النموذج يمكنه فهم “كيفية وجود الأشياء في العالم المادي” و”تفسير الدعائم بدقة وإنشاء شخصيات مقنعة تنقل مشاعر نابضة بالحياة”.
يمكن للنموذج إنشاء مقطع فيديو استنادًا إلى صورة ثابتة، بالإضافة إلى ملء الإطارات المفقودة في مقطع فيديو موجود أو توسيعه. تشتمل العروض التوضيحية التي أنشأها Sora والمضمنة في منشور مدونة OpenAI على منظر جوي لكاليفورنيا خلال الساعة الذهبية، ومقطع فيديو تم تصويره من داخل قطار طوكيو، ومقاطع فيديو أخرى. لدى العديد منها بعض العلامات الواضحة للذكاء الاصطناعي، مثل الأرضية المتحركة بشكل مثير للريبة في فيديو المتحف، وتقول OpenAI إن النموذج “قد يواجه صعوبة في محاكاة فيزياء مشهد معقد بدقة”، لكن النتائج بشكل عام مثيرة للإعجاب للغاية.
قبل بضع سنوات، كانت مولدات تحويل النص إلى صورة مثل Midjourney في طليعة قدرة النماذج على تحويل الكلمات إلى صور. لكن في الآونة الأخيرة، بدأ الفيديو في التحسن بوتيرة ملحوظة: فقد أظهرت شركات مثل Runway وPica نماذجها الخاصة لتحويل النص إلى فيديو، وتعتبر شركة Lumier من Google أحد المنافسين الرئيسيين لـ OpenAI في هذا المجال أيضًا. مثل Sora، يوفر Lumiere للمستخدمين أدوات تحويل النص إلى فيديو ويسمح لهم بإنشاء مقاطع فيديو من الصور الثابتة.
Sora متاح حاليًا فقط لـ “Red Teamers” الذين يقومون بتقييم النموذج بحثًا عن الأضرار والمخاطر المحتملة. يوفر OpenAI إمكانية الوصول إلى بعض الفنانين التشكيليين والمصممين وصانعي الأفلام للحصول على تعليقاتهم. ويشير إلى أن النموذج الحالي قد لا يحاكي بدقة فيزياء السيناريو المعقد وقد لا يشرح بشكل صحيح بعض الظواهر ذات السبب والنتيجة.