Брайан Катандзаро из NVIDIA: «Разговорный ИИ в каком-то смысле представляет собой сложную задачу для ИИ»

Опубликовано: 2021-10-02

Многие из вас, кто увлекается играми или серьезно занимается редактированием видео, знают NVIDIA как создателя ведущей технологии обработки графики на рынке. Но NVIDIA также является лидером в области искусственного интеллекта и глубокого обучения; особенно в том, как эти технологии могут улучшить то, как мы воспринимаем графику, синтез текста и видео, а также диалоговый ИИ.

Некоторые из их работ были продемонстрированы в серии видеороликов под названием «Я ЕСМЬ ИИ», которые представляют собой убедительный взгляд на то, что доступно (и что будет) для нас, чтобы улучшить то, как мы воспринимаем мир и друг друга. А недавно у меня была возможность пообщаться в LinkedIn в прямом эфире с Брайаном Катандзаро , вице-президентом по прикладным исследованиям в области глубокого обучения в NVIDIA, чтобы узнать больше об их работе с ИИ, чтобы переосмыслить то, как мы воспринимаем образы и звуки.

Ниже приведена отредактированная стенограмма части нашего разговора. Нажмите на встроенный проигрыватель SoundCloud, чтобы прослушать разговор полностью.

smallbiztrends · Брайан Катандзаро из NVIDIA – Диалоговый ИИ в некотором роде представляет собой сложную задачу для ИИ

Обязательно посмотрите встроенные клипы, так как они помогают оформить наш разговор.

Брент Лири : Этот голос в этом видео показался мне настоящим человеческим. Вы привыкли слышать, как Алекса и Сири, а до этого это было как, знаете, мы даже не хотим, не хотим говорить о голосах до этого, но этот действительно звучал как человеческий с, с человеческим интонация и некоторая глубина. Это то, что мы имеем в виду, когда вы говорите о переосмыслении графики и голосовых технологий, а также об использовании новейших технологий, включая искусственный интеллект и глубокое обучение, чтобы не только изменить внешний вид графики, но и изменить ощущение и звук машины, чтобы сделать ее звучит больше как один из нас.

Брайан Катандзаро : Я должен убедиться, что вы понимаете, что, хотя этот голос был синтезирован, он также был тщательно срежиссирован. Так что я бы не сказал, что это была кнопочная система синтеза речи. Как вы могли бы использовать, когда вы разговариваете с виртуальным помощником. Вместо этого это был контролируемый голос, который наши алгоритмы позволяют создавать производителям видео. И один из способов, которым они это делают, — моделирование интонации, ритма и энергии, которые они хотят иметь в определенной части видео повествования. Итак, я бы сказал, что это не просто история о том, как ИИ становится лучше, но это также история о том, как люди более тесно сотрудничают с ИИ для создания вещей и имеют возможность создавать синтетические голоса, которыми можно управлять таким образом.

Я думаю, что это открывает новые возможности для синтеза речи в сфере развлечений и искусства. Я думаю, это захватывающе, но это то, что вы и ваша аудитория должны понимать, на самом деле очень внимательно руководил человек. Сейчас, конечно, мы усердно работаем над алгоритмами, способными предсказать все это человечество, ритм, интонацию, высоту тона. И я думаю, что в ближайшие несколько лет мы увидим довольно удивительные достижения в этом, когда у нас будет полностью кнопочная система синтеза речи, которая имеет правильную интонацию, соответствующую смыслу текста, потому что, когда вы говорите, что многое значение передается через интонацию вашего голоса, а не только значение слов, которые вы выбираете.

И если у нас есть модели, способные понимать значение текстов, как некоторые из этих удивительных языковых моделей, о которых я упоминал ранее, мы должны быть в состоянии использовать их для управления синтезом речи таким образом, чтобы он имел смысл. И это то, что меня очень волнует. это интересно.

Я чувствую, что у нас есть своего рода культурная предвзятость, может быть, это специфично для Соединенных Штатов. Я не уверен, но у нас есть такое культурное предубеждение, что компьютеры не могут говорить по-человечески. И, возможно, это происходит отчасти из «Звездного пути: Следующее поколение», где Дейта был похож на невероятную вычислительную машину, и он мог решить любую проблему и изобрести новые теории физики, но он никогда не мог говорить так же, как человек, или может быть, это восходит к, знаете ли.

Брент Лири : Спок, может быть.

Брайан Катандзаро: Это было отталкивающим, как его, его голос, как будто он был жутким, знаете ли. Итак, у нас есть 50 лет, несколько поколений культуры говорят нам, что компьютер не может говорить по-человечески. А я на самом деле просто думаю, что это не так. Я думаю, что мы можем заставить компьютер говорить более по-человечески, и мы это сделаем. И я также думаю, что преимущества этой технологии будут очень велики для всех нас.

Брент Лири: Еще одна вещь, которая выделялась в этом клипе, была Амелия Эрхарт, и ее фотография, казалось, ожила. Можете ли вы рассказать о том, я предполагаю, что это часть переизобретения графики с использованием ИИ.

Брайан Катандзаро : Да, верно. NVIDIA Research действительно занимается множеством технологий, которые в основном синтезируют видео и изображения с помощью искусственного интеллекта. И это один пример, вы видели тот, где нейронная сеть раскрашивала изображение, как бы давая нам новый взгляд на прошлое. И когда вы думаете об этом, вы знаете, что такое раскрашивание изображения. ИИ должен понимать содержимое изображения, чтобы присваивать им возможные цвета, как, например, трава обычно зеленая, но если вы не знаете, где находится трава, то не стоит ничего красить в зеленый цвет и традиционные подходы к раскрашиванию изображений были, я бы сказал, немного рискованными. Но по мере того, как ИИ становится лучше в понимании содержания изображения и того, какие объекты там находятся и как объекты связаны друг с другом, он может намного лучше назначать возможные цвета изображению, которое как бы оживляет его.

Вот один из примеров, проблема раскрашивания изображения. Но я думаю, что в этом видео мы видели несколько других примеров, когда мы могли делать изображения, а затем анимировать их различными способами.

Визуальный условный синтез

Одна из технологий, которая нас действительно интересовала, называется условным синтезом видео, где вы можете создать видео на основе своего рода эскиза, и, вы знаете, для чего-то подобного, что вы должны сделать, это противодействовать распознаванию, анализирующему структуру объектов. Например, лицо, а вот глаза, а вот нос, а затем присваивает вид позиции объекту и размеры.

И это становится похоже на мультфильм, ребенок может рисовать фигуркой. А затем вы отправляете это в другую процедуру, которая оживляет эту фигурку и заставляет человека двигать головой, улыбаться или говорить с текстами, которые мы хотим оживить, когда человек говорит с определенным текстом, в то время как мы можем сделать модель, которая предсказывает, как будет развиваться их фигурная модель, как человек, который говорит. И затем, когда у нас есть такой анимированный рисунок из палочек, который показывает, как человек должен двигаться, мы пропускаем его через нейронную сеть, которая синтезирует видео из этого и, и исходит из исходного изображения, похожего на, внешний вид человека, фон и т. д., а затем анимирует его с помощью такого рода анимации фигурок, чтобы сделать видео.

И мы называем это условной генерацией видео, потому что есть много разных видео, которые вы можете создать из одной и той же фигурки. Итак, что мы хотим сделать, так это выбрать тот, который кажется правдоподобным, обусловленным какой-то другой информацией, например, текстом, который говорит человек, или, может быть, какой-то анимацией, которую мы хотим создать. Генерация условного видео — очень мощная идея, и я думаю, что со временем она превратится в новый способ генерации графики, новый способ рендеринга и создания графики.

Брент Лири: Есть даже кусок этого видео, где человек в основном сказал: «Нарисуй это», и это действительно начало рисоваться.

Брайан Катандзаро: Верно. Сила глубокого обучения заключается в том, что это очень гибкий способ отображения из одного пространства в другое. Итак, в этом видео мы видим много примеров этого. И это еще один пример, но с точки зрения технологии ИИ они все похожи, потому что мы пытаемся изучить сопоставление, которое идет от X к Y. И в этом случае мы пытаемся выучить сопоставление, которое идет от текстового описания сцены к фигурке из мультфильма этой сцены. Допустим, я сказал озеро, окруженное деревьями в горах. Я хочу, чтобы модель понимала, что горы уходят на задний план и имеют определенную форму.

И затем деревья уходят на передний план, а потом прямо посередине, обычно там будет большое озеро. Можно обучить модель на основе, скажем, тысячи или миллиона изображений природных ландшафтов, и у вас есть аннотации, которые показывают, каково содержание этих изображений? Затем вы можете обучить модель идти другим путем и сказать, учитывая текст, можете ли вы создать своего рода мультяшную фигурку того, как должна выглядеть сцена? Куда уходят горы? Куда уходят деревья? Куда уходит вода? И затем, когда у вас есть эта фигурка, вы можете отправить ее в модель, которая превращает ее в изображение. И, и так вот что вы видели в том видео.

Цифровые аватары и звонки в Zoom

Посмотрите это короткое видео о том, как эта технология будет использоваться, чтобы в ближайшем будущем сделать звонки в Zoom намного удобнее. В этом сценарии парень проходит собеседование на работу через Zoom.

Брент Лири: Что было круто, так это то, что в конце он сказал, что его изображение было создано из одной его фотографии; и это был его голос. Могли бы, на экране было видно движение рта. Качество звука отличное, и он сидит в кофейне, где может быть много звука, но мы не слышали этого звука.

Брайан Катандзаро : Да, ну, мы очень гордились этим демо. Я должен, я должен также отметить, что эта демонстрация стала лучшей на конференции SIGGRAPH в этом году, которая является крупнейшей графической конференцией в мире. Эта модель была обобщенной моделью синтеза видео. Ранее мы говорили о том, как можно взять фигурку человека, а затем оживить ее. Что ж, одним из недостатков моделей в прошлом было то, что для каждой ситуации приходилось обучать совершенно новую модель. Итак, допустим, если я дома, у меня есть одна модель. Если я в кофейне с другим фоном, мне нужна другая модель. Или, если вы хотите сделать это самостоятельно, вам понадобится одна модель для себя в этом месте, другая модель для себя, еще одно место, каждый раз, когда вы создаете одну из этих моделей, вам нужно собирать набор данных в этом месте, возможно, с этим комплект одежды или эти очки или что-то еще, а потом провести неделю на суперкомпьютере, обучая модель, и это очень дорого, верно? Поэтому большинство из нас никогда не смогли бы этого сделать. Это действительно ограничило бы возможности использования этой технологии.

Я думаю, что техническое новшество, стоящее за этой конкретной анимацией, заключалось в том, что они придумали обобщенную модель, которая могла работать практически с кем угодно. Вам просто нужно предоставить одну свою фотографию, что достаточно дешево. Любой может это сделать, верно? И если вы идете в новое место, или вы носите другую одежду, или очки, или что-то еще, в этот день вы можете просто сделать снимок. А затем модель, поскольку она универсальна, способна воспроизвести ваш внешний вид, просто используя эту фотографию в качестве эталона.

Я думаю, это довольно интересно. Теперь позже в этом видео, на самом деле, они также переключились на модель синтеза речи. Итак, то, что мы услышали в этом клипе, на самом деле было главным героем, говорящим своим голосом, но позже в кофейне стало так шумно, что он в конце концов переключился на текст. Итак, он просто печатает, а звук воспроизводится одной из наших моделей синтеза речи.

Я думаю, что предоставление людям возможности общаться по-новому только помогает сблизить людей.

Брент Лири: Разговорный ИИ, как он изменит то, как мы общаемся и сотрудничаем в ближайшие годы?

Брайан Катандзаро : Основной способ общения людей — это беседа, точно такая же, как у нас с вами прямо сейчас, но людям очень сложно вести осмысленный разговор с компьютером по ряду причин. Во-первых, это не кажется естественным, верно? Например, если это звучит так, как будто вы разговариваете с роботом, это барьер, препятствующий общению. Он не похож на человека, Он не реагирует как человек, и, очевидно, компьютеры в наши дни, вы знаете, большинство систем, с которыми мы с вами взаимодействовали, не понимают того, что могут понять люди. Таким образом, разговорный ИИ в некотором смысле представляет собой сложную задачу для ИИ. На самом деле вы можете быть знакомы с тестом Тьюринга, Аланом Тьюрингом, которого многие считают отцом искусственного интеллекта — он поставил разговорный ИИ в качестве конечной цели искусственного интеллекта.

Потому что если у вас есть машина, способная разумно общаться с человеком, то вы, по сути, решаете любой вопрос интеллекта, который только можете вообразить, потому что любая информация, которой обладают люди, любая мудрость, любая идея, созданная людьми за последние тысячи лет, все они были выражены через язык. А значит, язык — это достаточно общий способ. Очевидно, что это единственный способ для людей — сообщать сложные идеи. И если мы сможем сделать компьютеры, способные понимать и общаться разумно и с минимальным трением, так что на самом деле создается ощущение, что вы взаимодействуете с человеком, то, я думаю, мы сможем решить множество проблем. .

Я думаю, что разговорный ИИ еще долгое время будет оставаться в центре внимания исследований всей отрасли. Я думаю, что это такая же глубокая тема, как и все человеческое понимание и знание. Если бы у нас с вами был подкаст, скажем, по русской литературе, там было бы много специализированных идей, о которых человек с докторской степенью по русской литературе мог бы рассказать лучше, чем я, например, верно? Таким образом, даже среди людей наши способности в различных предметах будут различаться. И именно поэтому я думаю, что разговорный ИИ будет проблемой, которая продолжит привлекать нас в обозримом будущем, потому что понять все, что понимают люди, действительно сложно. И мы не близки к этому.

Это часть серии интервью один на один с лидерами мнений. Стенограмма была отредактирована для публикации. Если это аудио- или видеоинтервью, нажмите на встроенный проигрыватель выше или подпишитесь через iTunes или Stitcher.