Bryan Catanzaro من NVIDIA - الذكاء الاصطناعي التحاوري في بعض الطرق هو التحدي النهائي للذكاء الاصطناعي

نشرت: 2021-10-02

يعرف الكثير منكم المهتمين بالألعاب أو تحرير الفيديو الجاد NVIDIA كمبدعين لتقنية معالجة الرسومات الرائدة في السوق. لكن NVIDIA هي أيضًا شركة رائدة في مجالات الذكاء الاصطناعي والتعلم العميق ؛ على وجه التحديد كيف يمكن لهذه التقنيات تحسين كيفية تجربتنا للرسومات وتوليف النصوص والفيديو والذكاء الاصطناعي للمحادثة.

تم عرض بعض أعمالهم في سلسلة من مقاطع الفيديو التي قاموا بتجميعها معًا باسم I AM AI وهي نظرة مقنعة على ما هو (وما سيكون) متاحًا لنا لتحسين تجربة العالم - وبعضنا البعض. وقد أتيحت لي مؤخرًا الفرصة لإجراء محادثة مباشرة على LinkedIn مع Bryan Catanzaro ، نائب الرئيس لأبحاث التعلم العميق التطبيقية في NVIDIA ، لسماع المزيد عن عملهم مع الذكاء الاصطناعي لإعادة تصور كيفية اختبارنا للمشاهد والأصوات.

يوجد أدناه نسخة منقحة من جزء من محادثتنا. انقر فوق مشغل SoundCloud المضمن للاستماع إلى المحادثة الكاملة.

smallbiztrends · Bryan Catanzaro من NVIDIA - يعد الذكاء الاصطناعي التحادثي من بعض النواحي التحدي النهائي للذكاء الاصطناعي

تأكد من مشاهدة المقاطع المضمنة لأنها تساعد في تأطير محادثتنا.

برنت ليري : بدا ذلك الصوت في هذا الفيديو وكأنه إنسان حقيقي بالنسبة لي. لقد اعتدت أن تسمع مثل Alexa و Siri ، وقبل ذلك كان الأمر كما تعلم ، حتى أننا لا نريد التحدث عن الأصوات قبل ذلك ، ولكن هذا الصوت بدا حقًا كإنسان مع ، انعطاف وبعض العمق. هل هذا هو الشيء الذي ننظر إليه عندما تتحدث عن إعادة اختراع الرسومات وإعادة اختراع تقنية الصوت واستخدام أحدث التقنيات ، بما في ذلك الذكاء الاصطناعي والتعلم العميق ليس فقط لتغيير مظهر الرسومات ولكن لتغيير مظهر وصوت الآلة لجعلها يبدو وكأنه واحد منا.

بريان كاتانزارو : يجب أن أتأكد من أنك تفهم أنه على الرغم من أن هذا الصوت تم توليفه ، إلا أنه تم توجيهه عن كثب أيضًا. لذلك لن أقول أن هذا كان زر ضغط ، نظام تركيب الكلام. مثلما قد تستخدمه عند التحدث مع مساعد افتراضي. بدلاً من ذلك ، كان صوتًا يمكن التحكم فيه تسمح خوارزمياتنا لمنتجي الفيديو بإنشائه. وإحدى الطرق التي يقومون بها هي نمذجة الانعكاس والإيقاع والطاقة التي يريدون أن يمتلكها جزء معين من فيديو السرد. ولذا ، أود أن أقول إنها ليست مجرد قصة عن تحسن الذكاء الاصطناعي ، ولكنها أيضًا قصة عن كيفية عمل البشر بشكل وثيق مع الذكاء الاصطناعي لبناء الأشياء ، والقدرة على تكوين أصوات اصطناعية يمكن التحكم فيها بهذه الطريقة.

أعتقد أن هذا يفتح فرصًا جديدة لتركيب الكلام في مجال الترفيه والفنون ، على ما أعتقد. أعتقد أن هذا مثير ، لكنه شيء يجب أن تفهمه أنت وجمهورك أنه في الواقع موجه عن كثب من قبل شخص ما. الآن ، بالطبع ، نحن نعمل بجد على خوارزميات قادرة على التنبؤ بكل تلك الإنسانية هناك ، الإيقاع ، الانعكاس ، الملعب. وأعتقد أننا سنشهد بعض التطورات المدهشة في ذلك خلال السنوات القليلة المقبلة ، حيث يمكننا أن يكون لدينا زر ضغط كامل ، ونظام تركيب الكلام الذي لديه الانعكاس الصحيح ليتماشى مع معنى النص ، لأنه عندما أنت تتحدث كثيرًا عن المعنى يتم نقله من خلال انعكاس صوتك ، وليس فقط معنى الكلمات التي تختارها.

وإذا كانت لدينا نماذج قادرة على فهم معنى النصوص ، مثل بعض نماذج اللغة المدهشة التي كنت أشير إليها سابقًا ، فيجب أن نكون قادرين على استخدامها لتوجيه تركيب الكلام بطريقة لها معنى. وهذا شيء أنا متحمس جدًا بشأنه. انه مشوق.

أشعر أن لدينا نوعًا من التحيز الثقافي ، ربما يكون خاصًا بالولايات المتحدة. لست متأكدًا ، لكن لدينا هذا التحيز الثقافي الذي لا تستطيع أجهزة الكمبيوتر التحدث بطريقة تشبه البشر. وربما يأتي إلى حد ما من Star Trek: الجيل التالي حيث كانت البيانات مثل آلة حوسبة لا تصدق ، ويمكنه حل أي مشكلة وابتكار نظريات جديدة للفيزياء ، لكنه لم يستطع أبدًا التحدث بالطريقة نفسها التي يستطيع بها الإنسان ، أو ربما يعود ذلك إلى ، كما تعلمون.

برنت ليري : ربما سبوك.

بريان كاتانزارو: كان الأمر مزعجًا مثل صوته ، كما تعلمون ، كان زاحفًا. وهكذا لدينا 50 عامًا ، عدة أجيال من الثقافة تخبرنا أن الكمبيوتر لا يمكنه التحدث بطريقة تشبه البشر. وأنا في الحقيقة أعتقد أن الأمر ليس كذلك. أعتقد أنه يمكننا جعل الكمبيوتر يتحدث بطريقة أكثر شبهاً بالبشر ، وسنفعل. وأعتقد أيضًا أن فوائد تلك التكنولوجيا ستكون رائعة جدًا لنا جميعًا.

برنت ليري: الشيء الآخر الذي برز في هذا المقطع ، كان أميليا إيرهارت ، مع ظهور صورتها وكأنها تنبض بالحياة. هل يمكنك التحدث عن ذلك ، أعتقد أن هذا جزء من إعادة اختراع الرسومات باستخدام الذكاء الاصطناعي.

بريان كاتانزارو : أجل ، هذا صحيح. شاركت NVIDIA Research حقًا في الكثير من التقنيات لتجميع مقاطع الفيديو بشكل أساسي وتوليف الصور باستخدام الذكاء الاصطناعي. وهذا أحد الأمثلة ، لقد رأيت واحدًا حيث كانت الشبكة العصبية تلون صورة ، نوعًا ما تعطينا طرقًا جديدة للنظر إلى الماضي. وعندما تفكر في ذلك ، تعرف ، ما الذي ينطوي عليه تلوين الصورة. يحتاج الذكاء الاصطناعي إلى فهم محتويات الصورة من أجل تعيين الألوان الممكنة لها ، على سبيل المثال ، عادةً ما يكون العشب أخضر ، ولكن إذا كنت لا تعرف مكان العشب ، فلا يجب عليك تلوين أي شيء باللون الأخضر و كانت الأساليب التقليدية لتلوين الصور ، كما أقول ، تتجنب المخاطرة قليلاً. ولكن عندما يتحسن الذكاء الاصطناعي في فهم محتويات الصورة وما هي الأشياء الموجودة وكيف ترتبط الكائنات ببعضها البعض ، فيمكنه القيام بالكثير في تعيين الألوان الممكنة للصورة التي تجعلها تنبض بالحياة.

هذا مثال واحد ، مشكلة تلوين الصورة هذه. لكن أعتقد أنه في هذا الفيديو ، رأينا العديد من الأمثلة الأخرى حيث تمكنا من التقاط الصور ثم تحريكها بطرق مختلفة.

التوليف المرئي الشرطي

إحدى التقنيات التي كنا مهتمين بها حقًا ، تسمى تركيب الفيديو الشرطي ، حيث يمكنك إنشاء مقطع فيديو بناءً على نوع من الرسم التخطيطي ، وكما تعلم ، لشيء كهذا ، ما ستفعله هو يعارض الاعتراف الذي يحلل بنية الأشياء. على سبيل المثال ، وجه ، وهنا العينان وها هو الأنف ، ثم يخصص نوعًا من المواضع للكائن والأحجام.

ويصبح هذا نوعًا ما يشبه الكارتون ، قد يرسم الطفل بشخصية عصا. وبعد ذلك ، ما تفعله هو إرسال ذلك إلى روتين آخر يحرك هذا الشكل ويجعل الشخص يحرك رأسه أو يبتسم أو ، أو يتحدث بنصوص نريدها لتحريك شخص يتحدث إلى نص معين بينما يمكننا صنع نموذج يتنبأ بالكيفية التي سيتطور بها نموذج الشكل العصي الخاص بهم ، مثل الشخص الذي يتحدث. وبعد ذلك بمجرد أن يكون لدينا هذا النوع من الرسم المتحرك لشكل العصا ، والذي يوضح كيف يجب أن يتحرك الشخص ، ثم نضعه في شبكة عصبية تقوم بتركيب مقطع فيديو من ذلك ، وينتقل نوعًا ما من الصورة الأولية التي تشبه ، مظهر الشخص والخلفية وما إلى ذلك ، ثم تحريكه عبر هذا النوع من الرسوم المتحركة لأشكال العصا لعمل الفيديو.

ونحن نسمي ذلك إنشاء الفيديو الشرطي ، لأن هناك العديد من مقاطع الفيديو المختلفة التي يمكنك إنتاجها من نفس شكل العصا. ولذا فإن ما نريد القيام به هو اختيار واحدة تبدو معقولة مشروطة بنوع من المعلومات الأخرى ، مثل ربما النص الذي يتحدث به الشخص ، أو ربما نوع من الرسوم المتحركة التي نريد إنشاءها. وإنشاء الفيديو الشرطي فكرة قوية جدًا وهو شيء أعتقد أنه بمرور الوقت سيتطور إلى طريقة جديدة لإنشاء الرسومات وطريقة جديدة لتقديم الرسومات وإنشائها.

برنت ليري: هناك جزء من هذا الفيديو حيث قال الشخص بشكل أساسي ، ارسم هذا وبدأ بالفعل في الرسم.


بريان كاتانزارو: صحيح. تكمن قوة التعلم العميق في أنه طريقة مرنة جدًا لرسم الخرائط من مساحة إلى أخرى. وهكذا في هذا الفيديو ، نرى الكثير من الأمثلة على ذلك. وهذا مثال آخر ، ولكن من وجهة نظر تقنية الذكاء الاصطناعي ، فجميعهم متشابهون ، لأن ما نقوم به هو محاولة تعلم رسم الخرائط الذي ينتقل من X إلى Y. وفي هذه الحالة ، نحاول لتعلم رسم الخرائط الذي ينتقل من وصف نصي للمشهد إلى رسم كاريكاتوري لهذا المشهد. لنفترض أنني قلت بحيرة محاطة بالأشجار في الجبال. أريد أن يفهم النموذج أن الجبال تذهب في الخلفية ولها شكل معين.

وبعد ذلك ، تذهب الأشجار في المقدمة ثم في المنتصف ، عادة ما تكون هناك بحيرة كبيرة. من الممكن تدريب نموذج بناءً على ألف أو مليون صورة للمناظر الطبيعية ولديك تعليقات توضيحية توضح ، ما هي محتويات هذه الصور؟ ثم يمكنك تدريب النموذج على السير في الاتجاه الآخر والقول ، بالنظر إلى النص ، هل يمكنك إنشاء نوع من الرسوم المتحركة على شكل عصا لما يجب أن يبدو عليه المشهد؟ اين تذهب الجبال؟ أين تذهب الأشجار؟ أين يذهب الماء؟ وبمجرد أن تحصل على هذا الشكل العصا ، يمكنك إرساله إلى نموذج يوضح ذلك في صورة. وهذا ما رأيته في هذا الفيديو.

الصور الرمزية الرقمية ومكالمات التكبير

شاهد هذا الفيديو القصير حول كيفية استخدام هذه التقنية لجعل مكالمات Zoom تجربة أفضل بكثير في المستقبل القريب. هذا السيناريو لديه رجل تتم مقابلته للحصول على وظيفة عبر مكالمة Zoom.

برنت ليري: ما كان رائعًا في ذلك هو ، في النهاية ، أنه قال أن صورة له تم إنشاؤها من صورة واحدة له ؛ وكان صوته. يمكنك أن ترى على الشاشة حركة الفم. جودة الصوت رائعة ، وهو جالس في المقهى ، وقد يكون هناك الكثير من الأصوات في المقهى ، لكننا لم نسمع أيًا من هذا الصوت.

بريان كاتانزارو : نعم ، حسنًا ، كنا فخورون حقًا بهذا العرض التوضيحي. يجب أن أشير أيضًا إلى أن هذا العرض التوضيحي فاز بأفضل عرض في مؤتمر SIGGRAPH هذا العام ، وهو أكبر مؤتمر للرسومات في العالم. كان هذا النموذج نموذجًا عامًا لتركيب الفيديو. لقد تحدثنا في وقت سابق عن كيف يمكنك أن تأخذ نوعًا من تمثيل شخص ما ثم تحريكه. حسنًا ، أحد قيود النماذج في الماضي هو أنه كان عليك تدريب نموذج جديد تمامًا لكل موقف. لنفترض إذا كنت في المنزل ، لدي نموذج واحد. إذا كنت في المقهى بخلفية مختلفة ، فأنا بحاجة إلى نموذج آخر. أو إذا كنت ترغب في القيام بذلك بنفسك ، فستحتاج إلى نموذج واحد لنفسك في هذا المكان ، ونموذج آخر لنفسك ، ومكان آخر ، في كل مرة تقوم فيها بإنشاء أحد هذه النماذج ، يتعين عليك التقاط مجموعة بيانات في هذا الموقع باستخدام ربما ذلك مجموعة من الملابس أو تلك النظارات أو أي شيء آخر ، ثم قضاء أسبوع على كمبيوتر عملاق لتدريب نموذج ، وهذا مكلف حقًا ، أليس كذلك؟ لذلك لا يمكن لمعظمنا فعل ذلك أبدًا. هذا من شأنه أن يحد حقًا من الطريقة التي يمكن بها استخدام هذه التكنولوجيا.

أعتقد أن الابتكار التقني وراء تلك الرسوم المتحركة المعينة هو أنهم توصلوا إلى نموذج عام يمكن أن يعمل مع أي شخص بشكل أساسي. عليك فقط تقديم صورة واحدة لنفسك ، وهي رخيصة بما يكفي. يمكن لأي شخص أن يفعل ذلك ، أليس كذلك؟ وإذا ذهبت إلى موقع جديد أو كنت ترتدي ملابس أو نظارات مختلفة ، أو أيًا كان ، في ذلك اليوم ، يمكنك فقط التقاط صورة. ومن ثم فإن النموذج ، لأنه عام ، قادر على إعادة صياغة مظهرك بمجرد استخدام تلك الصورة كمرجع.

أعتقد أن هذا مثير للغاية. الآن لاحقًا في هذا الفيديو ، في الواقع ، قاموا بالتحويل إلى نموذج تركيب الكلام أيضًا. إذاً ما سمعناه في هذا المقطع كان في الواقع الشخصية الرئيسية تتحدث بصوتها الخاص ، ولكن فيما بعد أصبحت الأشياء في المقهى صاخبة لدرجة أنه انتهى به الأمر إلى التحول إلى نص. ولذا فهو يكتب فقط ويتم إنتاج الصوت بواسطة أحد نماذج تركيب الكلام لدينا.

أعتقد أن إعطاء الناس فرصة للتواصل بطرق جديدة يساعد فقط في تقريب الناس من بعضهم البعض.

برنت ليري: الذكاء الاصطناعي للمحادثة ، كيف سيغير ذلك كيفية تواصلنا وتعاوننا في السنوات القادمة؟

بريان كاتانزارو : الطريقة الأساسية التي يتواصل بها البشر هي من خلال المحادثة تمامًا مثلك تمامًا الآن ، ولكن من الصعب جدًا على البشر إجراء محادثة هادفة مع الكمبيوتر ، لعدد من الأسباب. الأول هو أنه لا يشعر بأنه طبيعي ، أليس كذلك؟ كما لو كنت تتحدث إلى إنسان آلي ، فهذا عائق يمنع الاتصال. لا يبدو أنه شخص ، ولا يتفاعل مثل أي شخص ومن الواضح أنه أجهزة كمبيوتر هذه الأيام ، كما تعلمون ، فإن معظم الأنظمة التي تفاعلت أنا وأنت معها ، لا تفهم ما يمكن أن يفهمه البشر. لذا فإن الذكاء الاصطناعي التحادثي هو في بعض النواحي التحدي النهائي للذكاء الاصطناعي. في الواقع ، قد تكون على دراية باختبار تورينج ، آلان تورينج ، الذي يعتبره الكثيرون أب الذكاء الاصطناعي - لقد وضع الذكاء الاصطناعي للمحادثات باعتباره الهدف النهائي للذكاء الاصطناعي.

لأنه إذا كان لديك آلة قادرة على التحدث بذكاء مع إنسان ، فأنت في الأساس تحل أي نوع من أسئلة الذكاء التي يمكنك تخيلها ، لأن أي معلومات يمتلكها البشر ، وأي حكمة ، وأي فكرة ابتكرها البشر على مدى آلاف السنين الماضية سنوات كلها ، وقد تم التعبير عنها جميعًا من خلال اللغة. وهذا يعني أن اللغة طريقة عامة بدرجة كافية. من الواضح أنها الطريقة الوحيدة للإنسان حقًا ، لتوصيل الأفكار المعقدة. وإذا كنا قادرين على صنع أجهزة كمبيوتر قادرة على الفهم والتواصل بذكاء ، وبتقليل من الاحتكاك ، لذلك يبدو في الواقع أنك تتفاعل مع الشخص ، فهناك الكثير من المشكلات التي أعتقد أننا سنكون قادرين على حلها .

أعتقد أن الذكاء الاصطناعي للمحادثات سيستمر في التركيز على البحث من الصناعة بأكملها لفترة طويلة. أعتقد أنه موضوع عميق مثل كل المعرفة والفهم البشري. إذا كنت أنت وأنا نشغل بودكاست ، دعنا نقول الأدب الروسي ، فسيكون هناك الكثير من الأفكار المتخصصة التي يمكن لشخص حاصل على درجة الدكتوراه في الأدب الروسي التحدث عنها أفضل مني ، على سبيل المثال ، أليس كذلك؟ لذا حتى بين البشر ، ستختلف قدراتنا في مختلف المواضيع. ولهذا السبب أعتقد أن الذكاء الاصطناعي للمحادثات سيكون تحديًا يستمر في إشراكنا في المستقبل المنظور ، لأنه في الحقيقة يمثل تحديًا لفهم كل شيء يفهمه البشر. ونحن لسنا قريبين من القيام بذلك.

هذا جزء من سلسلة مقابلات فردية مع قادة الفكر. تم تحرير النص للنشر. إذا كانت مقابلة صوتية أو فيديو ، فانقر فوق المشغل المضمن أعلاه ، أو اشترك عبر iTunes أو عبر Stitcher.