Microsoft представила искусственный интеллект, имитирующий любой человеческий голос

Артем
amazon-predstavila-sintezator-re.jpg

Разработка получила название VALL-E. Она может имитировать тембр и манеру речи, прослушав голос всего три секунды. 

Microsoft назвала своё достижение «языковой моделью нейронного кодека». VALL-E создавалась на основе EnCodec (звуковой кодек, использующий методы машинного обучения). В отличие от других синтезаторов речи, которые используют преобразование форм сигналов, решение от Microsoft проводит анализ, как именно звучит человек, разбивает эту информацию на отдельные сегменты и использует обучающие алгоритмы, чтобы сопоставить информацию из своих баз данных с тем, как этот голос будет звучать, если ИИ произнесёт другие фразы.

На сайте проекта можно ознакомиться с множеством примеров работы VALL-E, которые поделены на 4 колонки. В разделе Speaker Prompt можно прослушать оригинальную трехсекундную запись голоса, в Ground Truth — фраза целиком, Baseline приводит пример обычного синтезатора речи, в колонке VALL-E представлен результат работы новой технологии Microsoft. 
VALL-E обучали на основе библиотеки LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек.
6
iGuides в Яндекс.Дзен —  zen.yandex.ru/iguides
iGuides в Telegram — t.me/iguides
iGuides в VK —  vk.com/iguides
iGuides в Ok.ru — ok.ru/iguides

Будь в курсе последних новостей из мира гаджетов и технологий

Мы в соцсетях

Комментарии

kardigan
+3575
Очередная радость телефонного мошеника!
12 января 2023 в 00:45
#