بعد جدل كبير عبر منصات مواقع التواصل الاجتماعي، أزاحت OpenAI، الشركة التي تقف وراء ChatGPT، عن أول نموذج لتحويل النص إلى فيديو يعمل بالذكاء الاصطناعي (AI) Sora.
ابتكار جديد للذكاء الاصطناعي
ولفتت OpenAI إلى أن الشركة، إدعت أنها تستطيع إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية، حيث يعد هذا أطول من أي من منافسيها في هذا القطاع، بما في ذلك Lumiere من Google، والذي تم الكشف عنه الشهر الماضي.
التقارير الإعلامية، أفادت أنه يتوفر Sora حاليًا لأعضاء الفريق الأحمر وخبراء الأمن السيبراني الذين يختبرون البرامج على نطاق واسع لمساعدة الشركات على تحسين برامجهم وبعض منشئي المحتوى.
بينما تخطط شركة الذكاء الاصطناعي أيضًا لتضمين البيانات الوصفية لـ Coalition for Content Provenance and Authenticity (C2PA) في المستقبل بمجرد نشر النموذج في منتج OpenAI.، وعند الإعلان عن مولد الفيديو AI في منشور على X (المعروف سابقًا باسم Twitter)، قالت الشركة: “يمكن لـ Sora إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية تتميز بمشاهد مفصلة للغاية، وحركة الكاميرا المعقدة، وشخصيات متعددة ذات مشاعر نابضة بالحياة”.
حسب ما تم تناوله إعلاميا، فإن طول الفيديو الذي تدعي أنه ينتجه يزيد عن عشرة أضعاف ما يقدمه منافسوها، ويستطيع Lumiere من Google إنشاء مقاطع فيديو مدتها 5 ثوانٍ، في حين يمكن لـ Runway AI وPika 1.0 إنشاء مقاطع فيديو مدتها 4 ثوانٍ و3 ثوانٍ على التوالي.
فيما شارك حساب X الخاص بـ OpenAI والرئيس التنفيذي Sam Altman العديد من مقاطع الفيديو التي تم إنشاؤها بواسطة Sora، بالإضافة إلى المطالبات المستخدمة في إنشائها، وتظهر مقاطع الفيديو الناتجة مفصلة للغاية مع حركة سلسة، وهو أمر عانت منه مولدات الفيديو الأخرى في السوق إلى حد ما.
وحسب الشركة، يمكنها إنشاء مشاهد معقدة بشخصيات متعددة، وزوايا كاميرا متعددة، وأنواع محددة من الحركة، وتفاصيل دقيقة للموضوع والخلفية، وهذا ممكن لأن نموذج تحويل النص إلى فيديو يستخدم كلاً من الموجه وكذلك “كيفية وجود هذه الأشياء في العالم المادي”، ويعد Sora هو في الأساس نموذج انتشار يستخدم بنية محولات مشابهة لنماذج GPT.
البيانات التي تستهلكها وتولدها يتم تمثيلها في مصطلح يسمى التصحيحات، والتي تشبه مرة أخرى الرموز المميزة في نماذج إنشاء النص، التصحيحات عبارة عن مجموعات من مقاطع الفيديو والصور، مجمعة في أجزاء صغيرة، وفقًا لما تحدده الشركة.
و باستخدام هذه البيانات المرئية، مكّن OpenAI من تدريب نموذج إنشاء الفيديو على فترات ودرجات دقة ونسب عرض إلى ارتفاع مختلفة، بالإضافة إلى إنشاء تحويل النص إلى فيديو، يستطيع Sora أيضًا التقاط صورة ثابتة وإنشاء فيديو منها.
وذكرت OpenAI على موقعها على الإنترنت أن النموذج الحالي به نقاط ضعف، وقد يجد صعوبة في محاكاة فيزياء مشهد معقد بدقة، وقد لا يفهم حالات محددة من السبب والنتيجة.
ولضمان عدم استخدام أداة الذكاء الاصطناعي لإنشاء محتوى مزيف عميق أو أي محتوى ضار آخر، تعمل الشركة على إنشاء أدوات للمساعدة في اكتشاف المحتوى المضلل، وتخطط أيضًا لاستخدام البيانات الوصفية لـ C2PA في مقاطع الفيديو التي تم إنشاؤها، بعد اعتماد الممارسة الخاصة بنموذج DALL-E 3 مؤخرًا.