Брайан Катандзаро из NVIDIA: «Разговорный ИИ в каком-то смысле представляет собой сложную задачу для ИИ»
Опубликовано: 2021-10-02Многие из вас, кто увлекается играми или серьезно занимается редактированием видео, знают NVIDIA как создателя ведущей технологии обработки графики на рынке. Но NVIDIA также является лидером в области искусственного интеллекта и глубокого обучения; особенно в том, как эти технологии могут улучшить то, как мы воспринимаем графику, синтез текста и видео, а также диалоговый ИИ.
Некоторые из их работ были продемонстрированы в серии видеороликов под названием «Я ЕСМЬ ИИ», которые представляют собой убедительный взгляд на то, что доступно (и что будет) для нас, чтобы улучшить то, как мы воспринимаем мир и друг друга. А недавно у меня была возможность пообщаться в LinkedIn в прямом эфире с Брайаном Катандзаро , вице-президентом по прикладным исследованиям в области глубокого обучения в NVIDIA, чтобы узнать больше об их работе с ИИ, чтобы переосмыслить то, как мы воспринимаем образы и звуки.
Ниже приведена отредактированная стенограмма части нашего разговора. Нажмите на встроенный проигрыватель SoundCloud, чтобы прослушать разговор полностью.
Обязательно посмотрите встроенные клипы, так как они помогают оформить наш разговор.
Брент Лири : Этот голос в этом видео показался мне настоящим человеческим. Вы привыкли слышать, как Алекса и Сири, а до этого это было как, знаете, мы даже не хотим, не хотим говорить о голосах до этого, но этот действительно звучал как человеческий с, с человеческим интонация и некоторая глубина. Это то, что мы имеем в виду, когда вы говорите о переосмыслении графики и голосовых технологий, а также об использовании новейших технологий, включая искусственный интеллект и глубокое обучение, чтобы не только изменить внешний вид графики, но и изменить ощущение и звук машины, чтобы сделать ее звучит больше как один из нас.
Брайан Катандзаро : Я должен убедиться, что вы понимаете, что, хотя этот голос был синтезирован, он также был тщательно срежиссирован. Так что я бы не сказал, что это была кнопочная система синтеза речи. Как вы могли бы использовать, когда вы разговариваете с виртуальным помощником. Вместо этого это был контролируемый голос, который наши алгоритмы позволяют создавать производителям видео. И один из способов, которым они это делают, — моделирование интонации, ритма и энергии, которые они хотят иметь в определенной части видео повествования. Итак, я бы сказал, что это не просто история о том, как ИИ становится лучше, но это также история о том, как люди более тесно сотрудничают с ИИ для создания вещей и имеют возможность создавать синтетические голоса, которыми можно управлять таким образом.
Я думаю, что это открывает новые возможности для синтеза речи в сфере развлечений и искусства. Я думаю, это захватывающе, но это то, что вы и ваша аудитория должны понимать, на самом деле очень внимательно руководил человек. Сейчас, конечно, мы усердно работаем над алгоритмами, способными предсказать все это человечество, ритм, интонацию, высоту тона. И я думаю, что в ближайшие несколько лет мы увидим довольно удивительные достижения в этом, когда у нас будет полностью кнопочная система синтеза речи, которая имеет правильную интонацию, соответствующую смыслу текста, потому что, когда вы говорите, что многое значение передается через интонацию вашего голоса, а не только значение слов, которые вы выбираете.
И если у нас есть модели, способные понимать значение текстов, как некоторые из этих удивительных языковых моделей, о которых я упоминал ранее, мы должны быть в состоянии использовать их для управления синтезом речи таким образом, чтобы он имел смысл. И это то, что меня очень волнует. это интересно.
Я чувствую, что у нас есть своего рода культурная предвзятость, может быть, это специфично для Соединенных Штатов. Я не уверен, но у нас есть такое культурное предубеждение, что компьютеры не могут говорить по-человечески. И, возможно, это происходит отчасти из «Звездного пути: Следующее поколение», где Дейта был похож на невероятную вычислительную машину, и он мог решить любую проблему и изобрести новые теории физики, но он никогда не мог говорить так же, как человек, или может быть, это восходит к, знаете ли.
Брент Лири : Спок, может быть.
Брайан Катандзаро: Это было отталкивающим, как его, его голос, как будто он был жутким, знаете ли. Итак, у нас есть 50 лет, несколько поколений культуры говорят нам, что компьютер не может говорить по-человечески. А я на самом деле просто думаю, что это не так. Я думаю, что мы можем заставить компьютер говорить более по-человечески, и мы это сделаем. И я также думаю, что преимущества этой технологии будут очень велики для всех нас.
Брент Лири: Еще одна вещь, которая выделялась в этом клипе, была Амелия Эрхарт, и ее фотография, казалось, ожила. Можете ли вы рассказать о том, я предполагаю, что это часть переизобретения графики с использованием ИИ.
Брайан Катандзаро : Да, верно. NVIDIA Research действительно занимается множеством технологий, которые в основном синтезируют видео и изображения с помощью искусственного интеллекта. И это один пример, вы видели тот, где нейронная сеть раскрашивала изображение, как бы давая нам новый взгляд на прошлое. И когда вы думаете об этом, вы знаете, что такое раскрашивание изображения. ИИ должен понимать содержимое изображения, чтобы присваивать им возможные цвета, как, например, трава обычно зеленая, но если вы не знаете, где находится трава, то не стоит ничего красить в зеленый цвет и традиционные подходы к раскрашиванию изображений были, я бы сказал, немного рискованными. Но по мере того, как ИИ становится лучше в понимании содержания изображения и того, какие объекты там находятся и как объекты связаны друг с другом, он может намного лучше назначать возможные цвета изображению, которое как бы оживляет его.
Вот один из примеров, проблема раскрашивания изображения. Но я думаю, что в этом видео мы видели несколько других примеров, когда мы могли делать изображения, а затем анимировать их различными способами.
Визуальный условный синтез
Одна из технологий, которая нас действительно интересовала, называется условным синтезом видео, где вы можете создать видео на основе своего рода эскиза, и, вы знаете, для чего-то подобного, что вы должны сделать, это противодействовать распознаванию, анализирующему структуру объектов. Например, лицо, а вот глаза, а вот нос, а затем присваивает вид позиции объекту и размеры.
И это становится похоже на мультфильм, ребенок может рисовать фигуркой. А затем вы отправляете это в другую процедуру, которая оживляет эту фигурку и заставляет человека двигать головой, улыбаться или говорить с текстами, которые мы хотим оживить, когда человек говорит с определенным текстом, в то время как мы можем сделать модель, которая предсказывает, как будет развиваться их фигурная модель, как человек, который говорит. И затем, когда у нас есть такой анимированный рисунок из палочек, который показывает, как человек должен двигаться, мы пропускаем его через нейронную сеть, которая синтезирует видео из этого и, и исходит из исходного изображения, похожего на, внешний вид человека, фон и т. д., а затем анимирует его с помощью такого рода анимации фигурок, чтобы сделать видео.
И мы называем это условной генерацией видео, потому что есть много разных видео, которые вы можете создать из одной и той же фигурки. Итак, что мы хотим сделать, так это выбрать тот, который кажется правдоподобным, обусловленным какой-то другой информацией, например, текстом, который говорит человек, или, может быть, какой-то анимацией, которую мы хотим создать. Генерация условного видео — очень мощная идея, и я думаю, что со временем она превратится в новый способ генерации графики, новый способ рендеринга и создания графики.
Брент Лири: Есть даже кусок этого видео, где человек в основном сказал: «Нарисуй это», и это действительно начало рисоваться.
