Bryan Catanzaro من NVIDIA - الذكاء الاصطناعي التحاوري في بعض الطرق هو التحدي النهائي للذكاء الاصطناعي
نشرت: 2021-10-02يعرف الكثير منكم المهتمين بالألعاب أو تحرير الفيديو الجاد NVIDIA كمبدعين لتقنية معالجة الرسومات الرائدة في السوق. لكن NVIDIA هي أيضًا شركة رائدة في مجالات الذكاء الاصطناعي والتعلم العميق ؛ على وجه التحديد كيف يمكن لهذه التقنيات تحسين كيفية تجربتنا للرسومات وتوليف النصوص والفيديو والذكاء الاصطناعي للمحادثة.
تم عرض بعض أعمالهم في سلسلة من مقاطع الفيديو التي قاموا بتجميعها معًا باسم I AM AI وهي نظرة مقنعة على ما هو (وما سيكون) متاحًا لنا لتحسين تجربة العالم - وبعضنا البعض. وقد أتيحت لي مؤخرًا الفرصة لإجراء محادثة مباشرة على LinkedIn مع Bryan Catanzaro ، نائب الرئيس لأبحاث التعلم العميق التطبيقية في NVIDIA ، لسماع المزيد عن عملهم مع الذكاء الاصطناعي لإعادة تصور كيفية اختبارنا للمشاهد والأصوات.
يوجد أدناه نسخة منقحة من جزء من محادثتنا. انقر فوق مشغل SoundCloud المضمن للاستماع إلى المحادثة الكاملة.
تأكد من مشاهدة المقاطع المضمنة لأنها تساعد في تأطير محادثتنا.
برنت ليري : بدا ذلك الصوت في هذا الفيديو وكأنه إنسان حقيقي بالنسبة لي. لقد اعتدت أن تسمع مثل Alexa و Siri ، وقبل ذلك كان الأمر كما تعلم ، حتى أننا لا نريد التحدث عن الأصوات قبل ذلك ، ولكن هذا الصوت بدا حقًا كإنسان مع ، انعطاف وبعض العمق. هل هذا هو الشيء الذي ننظر إليه عندما تتحدث عن إعادة اختراع الرسومات وإعادة اختراع تقنية الصوت واستخدام أحدث التقنيات ، بما في ذلك الذكاء الاصطناعي والتعلم العميق ليس فقط لتغيير مظهر الرسومات ولكن لتغيير مظهر وصوت الآلة لجعلها يبدو وكأنه واحد منا.
بريان كاتانزارو : يجب أن أتأكد من أنك تفهم أنه على الرغم من أن هذا الصوت تم توليفه ، إلا أنه تم توجيهه عن كثب أيضًا. لذلك لن أقول أن هذا كان زر ضغط ، نظام تركيب الكلام. مثلما قد تستخدمه عند التحدث مع مساعد افتراضي. بدلاً من ذلك ، كان صوتًا يمكن التحكم فيه تسمح خوارزمياتنا لمنتجي الفيديو بإنشائه. وإحدى الطرق التي يقومون بها هي نمذجة الانعكاس والإيقاع والطاقة التي يريدون أن يمتلكها جزء معين من فيديو السرد. ولذا ، أود أن أقول إنها ليست مجرد قصة عن تحسن الذكاء الاصطناعي ، ولكنها أيضًا قصة عن كيفية عمل البشر بشكل وثيق مع الذكاء الاصطناعي لبناء الأشياء ، والقدرة على تكوين أصوات اصطناعية يمكن التحكم فيها بهذه الطريقة.
أعتقد أن هذا يفتح فرصًا جديدة لتركيب الكلام في مجال الترفيه والفنون ، على ما أعتقد. أعتقد أن هذا مثير ، لكنه شيء يجب أن تفهمه أنت وجمهورك أنه في الواقع موجه عن كثب من قبل شخص ما. الآن ، بالطبع ، نحن نعمل بجد على خوارزميات قادرة على التنبؤ بكل تلك الإنسانية هناك ، الإيقاع ، الانعكاس ، الملعب. وأعتقد أننا سنشهد بعض التطورات المدهشة في ذلك خلال السنوات القليلة المقبلة ، حيث يمكننا أن يكون لدينا زر ضغط كامل ، ونظام تركيب الكلام الذي لديه الانعكاس الصحيح ليتماشى مع معنى النص ، لأنه عندما أنت تتحدث كثيرًا عن المعنى يتم نقله من خلال انعكاس صوتك ، وليس فقط معنى الكلمات التي تختارها.
وإذا كانت لدينا نماذج قادرة على فهم معنى النصوص ، مثل بعض نماذج اللغة المدهشة التي كنت أشير إليها سابقًا ، فيجب أن نكون قادرين على استخدامها لتوجيه تركيب الكلام بطريقة لها معنى. وهذا شيء أنا متحمس جدًا بشأنه. انه مشوق.
أشعر أن لدينا نوعًا من التحيز الثقافي ، ربما يكون خاصًا بالولايات المتحدة. لست متأكدًا ، لكن لدينا هذا التحيز الثقافي الذي لا تستطيع أجهزة الكمبيوتر التحدث بطريقة تشبه البشر. وربما يأتي إلى حد ما من Star Trek: الجيل التالي حيث كانت البيانات مثل آلة حوسبة لا تصدق ، ويمكنه حل أي مشكلة وابتكار نظريات جديدة للفيزياء ، لكنه لم يستطع أبدًا التحدث بالطريقة نفسها التي يستطيع بها الإنسان ، أو ربما يعود ذلك إلى ، كما تعلمون.
برنت ليري : ربما سبوك.
بريان كاتانزارو: كان الأمر مزعجًا مثل صوته ، كما تعلمون ، كان زاحفًا. وهكذا لدينا 50 عامًا ، عدة أجيال من الثقافة تخبرنا أن الكمبيوتر لا يمكنه التحدث بطريقة تشبه البشر. وأنا في الحقيقة أعتقد أن الأمر ليس كذلك. أعتقد أنه يمكننا جعل الكمبيوتر يتحدث بطريقة أكثر شبهاً بالبشر ، وسنفعل. وأعتقد أيضًا أن فوائد تلك التكنولوجيا ستكون رائعة جدًا لنا جميعًا.
برنت ليري: الشيء الآخر الذي برز في هذا المقطع ، كان أميليا إيرهارت ، مع ظهور صورتها وكأنها تنبض بالحياة. هل يمكنك التحدث عن ذلك ، أعتقد أن هذا جزء من إعادة اختراع الرسومات باستخدام الذكاء الاصطناعي.
بريان كاتانزارو : أجل ، هذا صحيح. شاركت NVIDIA Research حقًا في الكثير من التقنيات لتجميع مقاطع الفيديو بشكل أساسي وتوليف الصور باستخدام الذكاء الاصطناعي. وهذا أحد الأمثلة ، لقد رأيت واحدًا حيث كانت الشبكة العصبية تلون صورة ، نوعًا ما تعطينا طرقًا جديدة للنظر إلى الماضي. وعندما تفكر في ذلك ، تعرف ، ما الذي ينطوي عليه تلوين الصورة. يحتاج الذكاء الاصطناعي إلى فهم محتويات الصورة من أجل تعيين الألوان الممكنة لها ، على سبيل المثال ، عادةً ما يكون العشب أخضر ، ولكن إذا كنت لا تعرف مكان العشب ، فلا يجب عليك تلوين أي شيء باللون الأخضر و كانت الأساليب التقليدية لتلوين الصور ، كما أقول ، تتجنب المخاطرة قليلاً. ولكن عندما يتحسن الذكاء الاصطناعي في فهم محتويات الصورة وما هي الأشياء الموجودة وكيف ترتبط الكائنات ببعضها البعض ، فيمكنه القيام بالكثير في تعيين الألوان الممكنة للصورة التي تجعلها تنبض بالحياة.
هذا مثال واحد ، مشكلة تلوين الصورة هذه. لكن أعتقد أنه في هذا الفيديو ، رأينا العديد من الأمثلة الأخرى حيث تمكنا من التقاط الصور ثم تحريكها بطرق مختلفة.
التوليف المرئي الشرطي
إحدى التقنيات التي كنا مهتمين بها حقًا ، تسمى تركيب الفيديو الشرطي ، حيث يمكنك إنشاء مقطع فيديو بناءً على نوع من الرسم التخطيطي ، وكما تعلم ، لشيء كهذا ، ما ستفعله هو يعارض الاعتراف الذي يحلل بنية الأشياء. على سبيل المثال ، وجه ، وهنا العينان وها هو الأنف ، ثم يخصص نوعًا من المواضع للكائن والأحجام.
ويصبح هذا نوعًا ما يشبه الكارتون ، قد يرسم الطفل بشخصية عصا. وبعد ذلك ، ما تفعله هو إرسال ذلك إلى روتين آخر يحرك هذا الشكل ويجعل الشخص يحرك رأسه أو يبتسم أو ، أو يتحدث بنصوص نريدها لتحريك شخص يتحدث إلى نص معين بينما يمكننا صنع نموذج يتنبأ بالكيفية التي سيتطور بها نموذج الشكل العصي الخاص بهم ، مثل الشخص الذي يتحدث. وبعد ذلك بمجرد أن يكون لدينا هذا النوع من الرسم المتحرك لشكل العصا ، والذي يوضح كيف يجب أن يتحرك الشخص ، ثم نضعه في شبكة عصبية تقوم بتركيب مقطع فيديو من ذلك ، وينتقل نوعًا ما من الصورة الأولية التي تشبه ، مظهر الشخص والخلفية وما إلى ذلك ، ثم تحريكه عبر هذا النوع من الرسوم المتحركة لأشكال العصا لعمل الفيديو.
ونحن نسمي ذلك إنشاء الفيديو الشرطي ، لأن هناك العديد من مقاطع الفيديو المختلفة التي يمكنك إنتاجها من نفس شكل العصا. ولذا فإن ما نريد القيام به هو اختيار واحدة تبدو معقولة مشروطة بنوع من المعلومات الأخرى ، مثل ربما النص الذي يتحدث به الشخص ، أو ربما نوع من الرسوم المتحركة التي نريد إنشاءها. وإنشاء الفيديو الشرطي فكرة قوية جدًا وهو شيء أعتقد أنه بمرور الوقت سيتطور إلى طريقة جديدة لإنشاء الرسومات وطريقة جديدة لتقديم الرسومات وإنشائها.
برنت ليري: هناك جزء من هذا الفيديو حيث قال الشخص بشكل أساسي ، ارسم هذا وبدأ بالفعل في الرسم.
