نقدم لكم "سورا"، نموذجنا لتحويل النص إلى فيديو. يمكن لـ "سورا" "إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية، وتتميز بمشاهد تفصيلية للغاية وحركة كاميرا معقدة وشخصيات متعددة ذات مشاعر نابضة بالحياة"، بهذه العبارات قدمت "أوبن أي آي" وليدها الجديد، الذي لم يتوقف الحديث عنه منذ إصداره منتصف الشهر الفائت، حتى اعتبره البعض ثورة جديدة حقيقية في عالم الذكاء الاصطناعي والطفرة الثانية لـ "أوبن أي آي" بعد "شات جي بي تي"، والأكيد أن "سورا"، الذي جاء تكملة لمسيرة ثابتة الخطى، هو ثاني أثمن إنجازات الشركة وأكثرها إبهاراً على الإطلاق.
فما هو هذا المنتج الجديد ولماذا حظي بكل هذه الضجة؟
يستطيع "سورا" إنشاء مشاهد معقدة (نوعاً ما) تتضمن شخصيات وأنواعاً عدة محددة من الحركة (موقع سورا)
"سورا"
بتلخيص بسيط للغاية، باستطاعة النموذج تحويل أي شيء تفكر به إلى قصة واقعية متحركة بدرجة محاكاة غير مسبوقة في عالم التصميم المعتمد على الذكاء الاصطناعي، وكل ما عليك هو تزويده بنص كتابي يعبر عما يجول في رأسك، و"سورا" سيقوم بكل شيء وصولاً إلى صناعة مقطع فيديو واقعي يمكن أن يصل إلى دقيقة كاملة.
وبحسب "أوبن أي آي"، يستطيع "سورا" إنشاء مشاهد معقدة (نوعاً ما) تتضمن شخصيات وأنواعاً عدة محددة من الحركة، وتفاصيل دقيقة تصف الموضوع والخلفية، كما يمكن له إنشاء لقطات متعددة في مقطع فيديو واحد مع الحفاظ على مظهر الشخصيات والأسلوب البصري العام للمشهد، فالنموذج قادر على إنشاء مقاطع فيديو كاملة مرة واحدة (فيديو واحد من مجموعة فيديوهات)، أو إطالة مقاطع الفيديو التي تم إنشاؤها مسبقاً.
ويراعي "سورا"، بحسب الشركة المنتجة، قوانين العالم المادي والفيزياء بصورة خاصة، إذ لا يفهم النموذج ما يطلبه المستخدم في الموجه فحسب، بل كيفية وجود هذه الأشياء في العالم المادي أيضاً، فضلاً عما يتمتع به من فهم عميق للغة، الأمر الذي يمكّنه من تفسير النص الموجه بدقة وتوليد شخصيات مقنعة تعبر عن عواطف نابضة بالحياة.
ومع ذلك، لم تخفِ الشركة نقاط الضعف الحالية لوليدها منوهة إلى أن "النموذج بإصداره الحالي يملك نقاط ضعف، إذ إنه يجد صعوبة في المحاكاة الدقيقة لفيزياء مشهد معقد، وقد لا يفهم حالات محددة قائمة على السبب والنتيجة، كأن يأخذ شخص قضمة من قطعة بسكويت، من دون أن تظهر علامة القضمة على البسكويت، كذلك ربما يخلط النموذج أيضاً بين التفاصيل المكانية المقدمة في النص، كالخلط بين اليمين واليسار، وقد يواجه صعوبة في تقديم الأوصاف الدقيقة للأحداث التي تحدث مع مرور الوقت".
آلية عمله
ويقوم النموذج بإنشاء مقطع فيديو من خلال البدء من نقطة التشويش الساكن (بمصطلحات التصميم هي نوع من البكسلة النقطية)، وتتغير هيئته تدريجاً عن طريق إزالة التشويش على خطوات عدة (ما يشبه عملية التصيير أو الإظهار المعروفة في مجال التصميم)، ويعتمد على الأبحاث السابقة في نماذج "دال-أي" و "جي بي تي"، فعلى غرار نماذج "جي بي تي"، يستخدم "سورا" ما يسمى بـ "بناء المحولات" (إطار عمل للتعلم العميق)، ويستخدم تقنية الاسترداد أو الاستخلاص (أسلوب مبتكر لتحسين أداء وعمل النماذج) الخاصة بـ "دال-أي 3".
وفي حين لم تذكر الشركة، بشكل صريح، مصدر بيانات "سورا"، إلا أنه من البديهي أن يعتمد النموذج بالدرجة الأولى على بيانات الشركة، التي حصلت عليها مسبقاً بواسطة نماذجها السابقة، لتكون المرجعية الأساسية في عملية البناء الذي ستعتمده "سورا".
اقرأ المزيد
يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)
و"سورا" متاح اليوم لأعضاء "الفريق الأحمر" (خبراء تقنيون يقومون بإجراء عمليات محاكاة وتقويمات عدائية للتدابير الأمنية بهدف تحديد نقاط الضعف)، لتقويم المناطق الحرجة المتعلقة بالأضرار أو الأخطار والمساعدة في تطوير التجربة ككل، وتقول الشركة، في هذا الصدد، "سنتخذ العديد من خطوات السلامة المهمة قبل إتاحة سورا ضمن منتجاتنا. نحن نعمل مع أعضاء الفريق الأحمر الذي سيختبر النموذج من وجهة نظر معادية".
وكذلك تمنح الشركة إمكانية للوصول للعاملين في المجال الفني من مصممين وصانعي أفلام وفنانين تشكيليين في مختلف أنحاء العالم لمعرفة هواجسهم وتحديد حالات الاستخدام الإيجابي لهذه التكنولوجيا الجديدة وكيفية تطوير النموذج ليكون أكثر فائدة للمحترفين من المبدعين.
التغذية الراجعة
وفي حين يأتي "سورا" في توقيت حساس للغاية إذ يتحضر العالم لمجموعة انتخابات كبرى، يحذر البعض من استغلاله لنشر معلومات غير حقيقية أو مضللة واستثماره في بث الدعايات والاحتيال بشكل عام، إذ من شأن هذه التكنولوجيا أن تؤثر في مجريات الأحداث العامة والتفصيلية، لكن الشركة نوهت إلى أنها تعمل على اختبار النموذج بدقة قبل طرحه للاستخدام العام، كما كشفت عن مسعاها لإصدار أداة كشف الفيديوهات المنشأة بواسطة الذكاء الاصطناعي.
وتمنع "أوبن أي آي" إنشاء الفيديوهات التي تحض على العنف أو الكراهية والتي تعرض محتوى جنسياً، وتلك التي تنتهك حقوق الملكية، تبعاً لسياسة استخدام قائمة على أساس أمني وأخلاقي بالدرجة الأولى تقوم وفقاً له بفحص كل الاقتراحات ورفض أي محتوى يمكن أن ينتهك سياستها، ومع ذلك تؤكد "أوبن أي آي" أنه على رغم الأبحاث والاختبارات المكثفة، إلا أنه لا يمكن التنبؤ بالطرق المفيدة ولا تلك التي سيسيء بها الناس استخدامه.
وتنحو "أوبن أي آي" لكي تشارك ما توصلت إليه راغبة بالاستفادة من ردود الفعل الأولية للمستخدمين المختصين في المجال الفني بشكل عام، "نحن نشارك التقدم البحثي الذي أحرزناه في أبحاثنا بشكل مبكر للعمل مع أشخاص خارج أوبن أي آي، والحصول على تغذية راجعة منهم وإعطاء الجمهور فكرة عن قدرات الذكاء الاصطناعي التي تلوح في الأفق".
وأخيراً، وبعد الاطلاع الأولي على الفيديوهات التي نشرتها الشركة بواسطة "سورا" والتي لا يمكن إنكار درجة الإتقان غير المسبوقة التي قدمتها، إلا أن الخبراء والفنيين الذين لديهم باع طويل في هذا المجال، بخاصة مصممي ما قبل الذكاء الاصطناعي التوليدي، لن تمر عليهم مشكلة الخلل الحركي، إذ يبدو وكأن أجزاء من العناصر المادية تتداخل، في بعض الأحيان، وتختفي لتظهر من جديد في أجزاء من الثانية، مثل حركة أقدام غير متسقة، وفي هذا عدم مراعاة لقوانين العالم المادي حيث تتواجد الشخصية، ولكن تبقى هذه الملاحظات في إطار التغذية الراجعة، إذا ما علمنا أن النموذج ما زال في فترته التجريبية.