Главная » Техника » Китайский искусственный интеллект научился подделывать любой голос за нескольких секунд

Китайский искусственный интеллект научился подделывать любой голос за нескольких секунд

New Scientist

Компания Baidu, которую иногда именуют «китайским Гуглом», анонсировала запуск нейронной сети, которая лучше и быстрее всех аналогов имитирует человеческий голос. Она изучает исходное звучание голоса и «клонирует» его, при необходимости добавляя нужные оттенки и акценты. Ключевая особенность новинки – быстрота анализа акустических данных.

В 2017 г. был представлен предшественник этой новинки, проект Baidu Deep Voice на базе ИИ, которому требовалось 30-минутное изучение исходного материала для генерации нового голоса. Инструмент Adobe VoCo делает это за 20 минут, канадский стартап Lyrebird всего за минуту обработки. Новая технология Baidu, у которой пока нет собственного имени, укладывается в несколько секунд.

Коммерческий потенциал у такой инновационной разработки неимоверно широк, и первым делом на ум, разумеется, приходит мошенничество и фальсификация данных. Клонирование лиц, движений и генерация видео «с участием» конкретной персоны, де-факто, уже доступно, и может быть даже поставлено на поток. Достаточно добавить голосовое сопровождение и получить оптимизированную копию личности, например, для обхода систем биометрической идентификации.

Но разве не может быть и позитивного примера? Вполне – «одушевленный» электронный помощник, который говорит голосом любимого персонажа. Цифровая нянька, способная успокоить ребенка или домашнего питомца голосом старшего члена семьи. Возможность привычного общения для человека, который утратил способность говорить, пусть и временно. Запись аудиокниг или озвучка текста известным голосом без необходимости утруждать его обладателя и т.д.