Что известно о нейросети, которая может копировать голос? | Наука | Общество

Наука


Исследовательская группа NVIDIA на конференции Interspeech 2021 представила нейросеть под названием RAD-TTS. Ее можно обучить человеческой речи с помощью собственного голоса, предоставляя данные о тембре, тональности и других характеристиках, уникальных для каждого пользователя.

Какие возможности есть у нейросети? 

Технология позволяет заговорить любым голосом, просто зачитав готовый текст. В ее основе лежит идея восприятия человеческого голоса как музыкального произведения.

Интерфейс RAD-TTS позволяет определять тональность, длительность и силу говорящего с максимальной точностью. Одна из главных особенностей нейросети — возможность произносить речь одного человека голосом другого. Зачитав, например текст мужским голосом, нейросеть, сохраняя интонации и ритм, может преобразовать голос в женский. 

В NVIDIA считают, что разработка позволит сделать искусственные голоса, применяемые в различных областях, более выразительными и реалистичными. В компании также заявили, что в перспективе подобные технологии можно будет использовать не только для озвучивания, но и для воссоздания выступлений легендарных певцов, синхронного перевода, а также для помощи людям с нарушениями голоса.

Где уже применяют синтез речи?

Синтез речи применяют в самых разных областях. Это и голосовые ассистенты, и IVR-системы, и умные дома. В 2019 году компания Тимура Бекмамбетова научила нейросеть говорить голосами знаменитостей. Проект Vera Voice анализирует речь любого человека, например артиста, и озвучивает его голосом любые тексты. Аналогичную технологию представили в Facebook (разработчики научили нейросеть говорить голосом Билла Гейтса) и Amazon, чей голосовой помощник может общаться со своими владельцами голосом актера Сэмюэля Л. Джексона и других знаменитостей.



Источник

Оцените статью
Новости на Триколор TV