من التجريب المبكر إلى التطبيقات المعاصرة، يؤدي الذكاء الاصطناعي دورًا محوريًّا في إعادة تشكيل المشهد الاتصالي برمته، وأثر على صناعات الإعلام والترفيه والإعلان، مما أدى إلى حالة تغيير انقلابية في طريقة إنشاء المحتوى وتوزيعه واستهلاكه ومشاركة الجمهور، علاوة على الجدل المثار في الجوانب المهنية والأخلاقية المرتبطة باستخداماته.
وكما نرى ونتابع كل يوم تحمل تطورات الذكاء الاصطناعي وعودًا بتطبيقات أكثر تقدمًا من شأنها تشكيل الصناعة بطرق عميقة. في هذه الحلقات نتتبع تطور وأوجه الاستخدامات من تحليل البيانات المبكر إلى العصر الحالي للتعلم العميق والأتمتة، وفي هذه الحلقة نتحدث عن صناعة تحويل النص إلى فيديو والتطورات في هذا المجال وآثارها على الإعلام والترفيه.
النص يتحول إلى فيديو
تحويل النص إلى فيديو (A text-to-video model) هو نموذج تعلم آلي يستخدم وصفًا للغة الطبيعية كمدخل لتفسير النص وإنشاء عناصر مرئية وصوتية ذي صلة بنص الإدخال، والهدف هو إنشاء مواد فيديو عالية الجودة متسقة مع النص، دون الحاجة إلى ممثلين بشريين أو تحرير فيديو معقد أو تصوير.
تقدم نماذج تحويل النص إلى فيديو مجموعة واسعة من التطبيقات التي قد تفيد مختلف المجالات، من التعليم والترويج إلى الصناعات الإبداعية، حيث يمكن لهذه النماذج تبسيط إنشاء المحتوى لمقاطع الفيديو التدريبية ومراجعات للأفلام والألعاب، مما يسهل إنشاء محتوى عالي الجودة.
يمكن للشركات إنشاء مقاطع فيديو تسويقية أو إعلانات أو محتوى وسائط اجتماعية مباشرة من البرامج النصية، مما يوفر الوقت والموارد التي تنفق في إنتاج الفيديو التقليدي، كما يمكن استخدام تقنية تحويل النص إلى فيديو لإنشاء محتوى تعليمي، مثل مقاطع الفيديو التوضيحية أو الدروس الافتراضية بناء على المواد المكتوبة.
ويمكن لصانعي الأفلام ومصممي الألعاب إنشاء نموذج أولي لمحتوى الفيديو بسرعة أو إنشاء رسوم متحركة، مما يسمح بإنشاء المحتوى واختباره بشكل أسرع، وفي وسائل التواصل الاجتماعي يمكن لصناع المحتوى استخدام أدوات تحويل النص إلى فيديو لإنشاء محتوى جاذب.
في الغالب يوجد نموذجان لتكنولوجيا الذكاء الاصطناعي التوليدي لإنشاء الفيديو من النصوص:
– نماذج تحويل النص إلى صورة: يتم تحويل النص إلى فيديو من خلال إنشاء تسلسلات من الصور التي يمكن تجميعها في مقاطع فيديو، ويكمن التحدي في الحفاظ على التماسك والاستمرارية وحركة اللقطات عبر الإطارات.
– تركيب الفيديو بالذكاء الاصطناعي: هنا يتم تصميم بعض النماذج لأخذ تعليمات نصية وإنشاء رسوم متحركة أو أفلام قصيرة أو مشاهد فيديو، وقد تتضمن موسيقى خلفية، وسرد صوتي، كما يمكن أن تحدث تغييرات تلقائية في المشهد بناء على النص المدخل.
مسيرة سريعة من التطور
يعد “كوغ فيديو” (CogVideo) باللغة الصينية أقدم نموذج لتحويل النص إلى فيديو يتم تطويره مع نسخته التجريبية من الرموز مفتوحة المصدر التي تم تقديمها لأول مرة في عام 2022م، وفي ذلك العام، أصدرت “ميتا بلاتفورمس” (Meta Platforms) نموذجًا جزئيًّا لتحويل النص إلى فيديو يسمى (Make-A-Video)، كما قدمت “غوغل برين” (Google Brain) لاحقًا (Google DeepMind) فيديو “إيميجن فيديو” (Imagen Video)، لتحويل النص إلى فيديو، وسنأتي الى بعضها بالتفصيل.
التطورات في هذا المجال تسهم فيه الشركات الكبرى بقدر كبير من الولايات المتحدة الأمريكية إلى الصين التي بات لها إسهام كبير في تطبيقات الذكاء الاصطناعي، ففي يناير من نفس العام، أعلنت “غوغل” عن تطوير نموذج تحويل النص إلى فيديو يسمى “لوميير” (Lumiere)، وهو يوفر للمستخدمين القدرة على إنشاء مقاطع فيديو واقعية ومنمقة، كما يوفر خيارات متطورة لتحريرها ومونتاجها.
يمكن للمستخدمين تقديم مدخلات نصية تصف ما يريدون باللغة الطبيعية ويقوم “لوميير” بإنشاء مقطع فيديو يصور ذلك، كما يمكنهم تحميل صورة ثابتة وإضافة مطالبة لتحويلها إلى فيديو، ويدعم النموذج ميزات إضافية مثل الرسم الداخلي، بإدراج كائنات محددة لتحرير مقاطع الفيديو باستخدام مطالبات نصية لإضافة الحركة إلى أجزاء معينة من المشهد.
في فبراير 2024م، كشفت (Open AI) المسؤولة عن “شات “جي بي تي” عن أداة “سورا” (Sora AI Video Generator) التي تتيح توليد مقاطع الفيديو بناء على النصوص التي يقوم بصياغتها المستخدم، وهذه الأداة تستطيع إنشاء مقاطع فيديو تقارب الواقع، كما تصنع مقاطع مستوحاة من صور ثابتة، ويمكنها إضافة محتوى بصري على فيديوهات متوفرة مسبقًا، وذلك بمجرد كتابة طلب ليتم الحصول على مشاهد مفصلة للغاية وصور بإخراج احترافي وشخصيات مليئة بالمشاعر وكأنها حقيقية.
قامت (Open AI) بتدريب النموذج باستخدام مقاطع الفيديو المتاحة للجمهور، بالإضافة إلى مقاطع الفيديو المحمية بحقوق الطبع والنشر المرخصة لهذا الغرض، ووفقًا لسياسة الشركة، تقيد “سورا” المطالبات النصية للصور الجنسية أو العنيفة وصور المشاهير، بالإضافة إلى المحتوى الذي يعرض موضوعات محمية بالملكية الفكرية.
في يونيو 2024م، أطلقت شركة “لوما لابس” (Luma Labs) للذكاء الاصطناعي التوليدي، ومقرها سان فرانسيسكو أداة فيديو باسم (Dream Machine)، وفي نفس الشهر قامت مجموعة التكنولوجيا الصينية (Kuaishou)، بتوسيع نطاق عمل نموذج “كلينغ” (Kling) لتحويل النص إلى فيديو ليشمل المستخدمين الدوليين بالإضافة إلى الصينيين.
ومع وجود بدائل وخيارات أخرى، أطلقت شركة الذكاء الاصطناعي الصينية (MiniMax) نموذج الفيديو الخاص بها لأول مرة وذلك في سبتمبر 2024م، فانضمت إلى شركات نماذج الذكاء الاصطناعي الأخرى الراسخة مثل: (Zhipu) و(Baichuan) و(Moonshot).
علاوة على الشركات يعمل الباحثون المتخصصون في هذا المجال في عمليات التطوير، فعلى سبيل المثال ينشط “ماتياس نيسنر” و”لورديس أغابتيتو” في شركة الذكاء الاصطناعي (Synthesia) على تطوير منظومة يمكنها توليف الفيديو الواقعي باستخدام تمثيلات ثنائية الأبعاد وثلاثية الأبعاد للشكل والمظاهر والحركة لتوليف الفيديو.
اللاعبون الأوائل
بالتفصيل نعرض هنا أوائل اللاعبين الرئيسيين الذين أسهموا في تطوير عميلة تحويل النص إلى فيديو، كما يلي:
– شركة “رن واي” (Runway) الأميركية: وهي رائدة في أدوات الوسائط التوليدية، ونماذجها قادرة على إنشاء مقاطع فيديو قصيرة من الأوصاف النصية.
– منصة “ديب برين” (DeepBrain): وهي تركز على إنشاء مقاطع فيديو باستخدام مطالبات نصية، حيث يسمح للمستخدمين بإنشاء عروض فيديو تقديمية ومحاكاة صور رمزية واقعية.
– فيديو إيميجن: أحرزت غوغل تقدمًا في إنشاء مقاطع فيديو من النص باستخدام نموذج “إيميجن” للذكاء الاصطناعي الخاص بها، فيمكن لهذا النموذج إنشاء فيديو (4K) عالي الجودة من المدخلات النصية.
– نموذج اصنع فيديو: طور مختبر الذكاء الاصطناعي في شركة ميتا، هذا النموذج لتحويل الأوصاف النصية إلى مقاطع فيديو قصيرة، وعروض بالوسائط المتعددة من المدخلات النصية.
قيود ومحدودية
تتضمن عملية إنشاء الفيديو مزامنة مدخلات النص مع إطارات الفيديو، مما يضمن المحاذاة والاتساق في جميع أنحاء التسلسل، وتؤدي هذه العملية لانخفاض الجودة مع زيادة طول الفيديو، وعلى الرغم من التطور السريع لنماذج تحويل النص إلى فيديو، تتطلب هذه النماذج قدرًا كبيرًا من بيانات التدريب لتكون قادرة على توليد مخرجات عالية الجودة ومتماسكة.
علاوة على ذلك، قد تسيء بعض النماذج تفسير المطالبات النصية، مما يؤدي إلى مخرجات فيديو تنحرف عن المعنى المقصود، ويمكن أن يحدث هذا بسبب صعوبات التقاط السياق الدلالي المضمن في النص، مما يؤثر على قدرة النموذج على التقاط الفيديو للرسالة المقصودة للمستخدم.
معايير أخلاقية
يثير نشر نماذج تحويل النص إلى فيديو اعتبارات أخلاقية تتعلق بإنشاء المحتوى، فالكثير من النماذج الموجودة حاليًّا قادرة على إنشاء محتوى غير مقبول اجتماعيًّا وثقافيًّا أو غير مصرح به، بما في ذلك المواد غير اللائقة والعنف والمعلومات المضللة والتشابه مع أفراد حقيقيين دون موافقة.
لذلك من الضروري التأكد من أن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي يتوافق مع المعايير المعمول بها للاستخدام الآمن والأخلاقي، في وقت لا تزال فيه قدرة الذكاء الاصطناعي على التعرف على المحتوى المحمي بحقوق الطبع والنشر وتصفيته تمثل تحديًّا مستمرًا، مع الأخذ في الاعتبار أثر ذلك على كل من المبدعين والجمهور.
نظرة مستقبلية
مع استمرار تطور نماذج الذكاء الاصطناعي التوليدي، ستتحسن جودة وواقعية وتماسك إنشاء النص إلى فيديو، حيث يمكن أن يؤدي ذلك إلى الاعتماد عليه بشكل واسع في الصناعات الإبداعية، فضلًا عن ذلك يمكن للمستخدمين إدخال مطالبات محددة لإنشاء محتوى فيديو مخصص للتفضيلات والرغبات الفردية.
بشكل عام، تنبئ عمليات التطوير الجارية بثورة في كيفية إنشاء مقاطع الفيديو، مما يجعلها أكثر سهولة وأسرع وأكثر كفاءة، ومع ذلك لا يزال هناك الكثير من العمل لتحسين قدراتها والتغلب على التحديات الحالية.