NVIDIA представила ИИ для генерации видео, а актёры жалуются на копирование ИИ их голосов

Апр 20, 2023

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.

В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из этих них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

Между тем, британские актёры озвучки обнаружили, что некоторые веб-сайты используют их голоса без разрешения. Они обеспокоены тем, что в будущем могут потерять карьеру, «когда голоса ИИ станут более изощренными».

Реми Мишель Кларк (Remie Michelle Clarke) участвовала в озвучке для Microsoft Bing в Ирландии. Недавно она обнаружила веб-сайт для преобразования текста в речь, который использовал её голос для озвучки текста. Любой пользователь сайта мог заплатить за то, чтобы голос Кларк озвучил всё, что им заблагорассудится — рекламные объявления, аудио на YouTube или голосовые сообщения по телефону.

Искусственный интеллект упростил воспроизведение человеческого голоса с помощью множества инструментов, позволяющих клонировать вокализацию, заставив роботов звучать так же, как настоящие люди. По сообщениям различных СМИ, число голосовых мошенников растёт, поскольку преступники используют такие инструменты, чтобы обманом заставить жертв перевести деньги или подтвердить финансовые переводы. Компания Revoicer сообщила Bloomberg News, что не может сказать, откуда у неё берутся голосовые данные, но утверждает, что этот процесс полностью законен.

Майк Купер (Mike Cooper), британский актёр озвучки, проживающий в США, также нашёл свой голос на двух веб-сайтах по генерации голоса ИИ. Информация на данных сайтах гласит о том, что владельцы сайтов имеют законное право на его голос, несмотря на то что он никогда с ними не сотрудничал.

Кларк сказала, что не знает, могут ли веб-сайты законно продавать её голос, но обеспокоена тем, что контракт, который она подписала много лет назад с Microsoft, может быть причиной того, что она слышит свой голос в интернете.

Роб Скиглимпалья (Rob Sciglimpaglia), адвокат Кларк, сказал, что благодаря партнёрам технологических фирм по обработке данных, многие компании теперь имеют право использовать голоса актёров для ИИ.

Мишель Кларк (Michelle Clarke), также добавила: «Первоначально люди беспокоятся о том, что наниматели могут использовать ваш голос для другой работы, за которую вам никогда не заплатят, и о сопутствующей потере заработка. А теперь есть вероятность потерять карьеру в будущем, когда голоса ИИ станут более изощренными».