клонирование голоса по образцу программа
Голосовой DeepFake, или Как работает технология клонирования голоса
Leo Matyushkin
Проблема синтеза речи из текста (Text-to-Speech, TTS) представляет собой одну из классических задач для искусственного интеллекта. Цель ИИ – автоматизировать процесс чтения текста, основываясь на наборах данных, содержащих пары «текст – аудиофайл».
Одной из важных проблем синтеза речи является задача создания образа голоса со всеми его характерными особенностями. Соответствующие наборы методик называют технологией клонирования голоса (англ. voice changing, voice cloning).
Решение указанной проблемы имеет множество практических приложений:
Очевидно, что подобные технологии могут применяться с преступными целями: мошенничество, телефонное хулиганство, компрометирование в результате совмещения с технологией DeepFake. Поэтому кроме методов клонирования голоса важно разрабатывать средства для предотвращения незаконного использования технологии.
Для обучения системы необходимо иметь большое количество сопоставленных аудиозаписей и текстов. В случае голосов знаменитостей можно прибегать к помощи записей публичных выступлений, интервью, результатам творческой деятельности и т. п. В качестве текстовых пар могут применяться стенограммы или тексты, полученные в результате коррекции автоматически распознанной речи.
Отличительной особенностью последних разработок является то, что для создания правдоподобного образа «голосовой мишени» достаточно всё меньших интервалов звучащей устной речи.
Современное состояние
В сфере создания инструментов для клонирования голоса работают множество команд, стремящихся к коммерциализации программных продуктов. По приведённым ниже ссылкам вы можете оценить текущее состояние технологии:
Другие компании стараются обойти стороной этический вопрос за счёт использования вместо клонирования голоса нейросетевых систем синтеза-смешения множества голосов. Таким коммерческим продуктом является, например, Yandex SpeechKit.
В связи с тем, что данная технология представляет конкурентный интерес для множества IT-компаний, проекты с открытым исходным кодом крайне редки. В этой статье мы остановимся на редком свободном проекте Real-Time Voice Cloning. Этот открытый репозиторий является результатом применения технологии переноса обучения SV2TTS, описанной в научной публикации (сэмплы, полученные в результате применения подхода).
Автор библиотеки с июня 2019 участвует в упомянутом выше коммерческом проекте Resemble.AI и уделяет репозиторию меньше времени, но ничто не мешает вам сделать собственный форк проекта.
Алгоритм клонирования голоса
Чтобы компьютер мог читать вслух текст, ему нужно понимать две вещи: что он читает и как это произнести. Поэтому в проекте Real-Time Voice Cloning система клонирования принимает два входных источника: текст, который необходимо озвучить, и образец голоса, которым этот текст должен быть прочитан.
С технической точки зрения система разбита на три компонента:
Модели трёх выделенных компонентов обучаются независимо друг от друга.
Где взять данные?
Для обучения кодера речи можно обратиться к следующим библиотекам:
Для обучения синтезатор и вокодера:
Официальным хостингом наиболее популярных наборов данных LibriSpeech служит openslr.org, который из-за популярности темы постоянно находится под существенной нагрузкой. Поэтому выше мы приложили ссылки на «зеркала» архивов.
Если вы решили с головой погрузиться в данную тему, обратите внимание на библиотеку Python для работы с аудиодатасетами audiodatasets:
Будьте осторожны: при установке библиотека загружает более 100 Гб данных трех наборов:
Перечислим также другие датасеты, которые не проверялись в рассматриваемой библиотеке, но применимы для обучения, в том числе корпуса русскоязычной устной речи:
Использование предобученных моделей
Имеется инструкция по переносу проекта с помощью Docker, здесь мы рассмотрим установку на локальной машине. Учтите, что наличие GPU является обязательным. Клонируем репозиторий:
В качестве языка программирования используется Python 3, автор рекомендует версию 3.7. В связи с тем, что репозиторий предполагает привлечение вполне конкретных версий библиотек, рекомендуем питонистам пускать в ход виртуальное окружение.
Переходим в папку и устанавливаем необходимые зависимости:
Также потребуется фреймворк глубокого обучения PyTorch (версия не ниже 1.0.1).
Далее необходимо загрузить предобученные модели (архив на Google drive, зеркало). Согласно с вышеописанной схеме загруженный архив содержит три директории для трех моделей. Их нужно слить вместе с соответствующими директориями корневого каталога библиотеки.
Проверить правильность конфигурации можно ещё до загрузки датасетов:
Если все тесты пройдены (вы увидите строку All tests passed ), можно двигаться дальше. Скрипт предложит указать пути к файлам примеров, но для работы удобнее обратиться кграфическому интерфейсу:
Если у вас уже загружены датасеты, то можно сразу указать путь к директории:
Чтобы просто поиграть с программой, достаточно наименьшего по объёму датасета LibriSpeech/train-clean-100 (см. выше).
Пример результата вызова интерфейса:
Пример работы с интерфейсом без обучения нейросетей представлен в следующем видеоролике:
Процесс обучения
Начинаем с подготовки данных для обучения кодера:
Далее запускаем два скрипта, генерирующих данные для синтезатора. Начинаем с аудиофайлов:
Теперь вы можете обучить синтезатор:
Синтезатор будет выводить сгенерированные аудио и спектрограммы в каталог моделей. Используем синтезатор для генерации обучающих данных вокодера:
Наконец, обучаем вокодер:
Вокодер выводит сгенерированные аудиофайлы в директорию модели.
При возникновении вопросов относительно работы библиотеки мы также рекомендуем ознакомиться с диссертацией автора. Там же приведены ссылки на научные работы, посвящённые теме клонирования и изменения голоса.
Создана первая технология для подделки любых голосов
Говорят, ещё в советское время на телефонных станциях установили оборудование для прослушки разговоров. Естественно, записать и физически прослушать все разговоры тогда не было возможности, зато эффективно работала технология голосовой идентификации. По образцу голоса конкретного человека система мгновенно срабатывала — на прослушку или запись, с какого бы телефона он ни звонил. Эти технологии доступны и сегодня, вероятно, используются в оперативно-разыскной деятельности. Голос человека уникален, как его отпечатки пальцев.
Благодаря передовым разработкам в области ИИ теперь злоумышленники смогут пустить оперативников по ложному следу. 24 апреля 2017 года канадский стартап Lyrebird анонсировал первый в мире сервис, с помощью которого можно подделать голос любого человека. Для обучения системы достаточно минутного образца.
Сайт Lyrebird объясняет, что на основе минутного образца система «генерирует уникальный ключ», с помощью которого может обработать любую другую речь, придав ей характеристики нужного голоса.
Эту систему можно использовать, чтобы выдать себя за другого человека, то есть для розыгрышей (только не шутите с голосами личностей, которые находятся в федеральном розыске). С этого дня не стоит удивляться, если вам с незнакомого номера звонит мама/бабушка/жена/ваш ребёнок — и говорит странные вещи, просит помочь или перечислить деньги на какой-то счёт. Голосом вашего родственника может говорить кто угодно.
Возможности системы не ограничиваются розыгрышами и социальной инженерией. Например, вы можете разработать собственный уникальный голос — и использовать его в общении, если ваш собственный голос не устраивает по каким-то причинам. Такая услуга будет полезна телефонным операторам, маркетологам, продажникам и другим профессионалам в сферах, где важную роль играют разговоры, общение по телефону. Хотите очаровать девушку, расположить к себе собеседника, добавить себе авторитетности — просто добавьте немного низких частот и бархатистости.
Известно, что голос человека напрямую связан с психологическими чертами личности, эта информация передаётся собеседнику на подсознательном уровне. Так, писклявые, тонкие и визжащие звуки голоса вызывают дискомфортные тревожные ощущения, и такие голоса подсознательно ассоциируются с юностью, энергичностью, неопытностью и незрелостью. С другой стороны, людей с низкими голосами воспринимают как людей самодостаточных, высокоинтеллектуальных и уверенных в себе. Человек с низким голосом интуитивно считается знающим и авторитетным. Этими приёмами пользуются даже имиджмейкеры, когда техническими методами понижают голос политических кандидатов во время телетрансляций, чтобы вызвать большее доверие избирателей женского пола.
В сервисе Lyrebird для использования в своих целях можно выбрать один из тысяч заранее подготовленных наиболее оптимальных голосов — или спроектировать собственное оригинальное звучание. Разработчики гарантируют, что обработка уникальным «ключом» тысячи предложений на их кластерах GPU занимает менее 0,5 секунды.
Технология генерации речи Lyrebird разработана в Монреальском институте алгоритмов обучения (Montreal Institute for Learning Algorithms, MILA) при Монреальском университете (Канада).
В качестве демонстрации технологии разработчики сгенерировали ключи для голосов Дональда Трампа, Барака Обамы и Хиллари Клинтон. В демонстрационном аудиоклипе эти политики обсуждают возможности системы подделки голосов Lyrebird (аудио).
Вот отдельные сгенерированные фразы разными голосами. Одни и те же фразы одинаковый голос произносит с разными интонациями:
В демонстрационном плейлисте представлены два десятка голосов с разными характеристиками, как пример того, какие голоса можно сгенерировать на свой вкус.
Сейчас Lyrebird заканчивает разработку API, чтобы сервис реально можно было использовать в своих приложениях. Разработчики говорят, что Lyrebird — первая в мире компания, которая предлагает технологию для точной подделки чужих голосов. В связи с этим на них налагаются определённые этические обязательства. Главным этическим обязательством является повсеместное информирование о возможностях технологии по точной подделке чужого голоса, так что с этого дня — с 24 апреля 2017 года — ни один суд в мире, ни одно оперативно-разыскное мероприятие не должно полагаться на аутентичность голоса конкретного человека. С этого дня голоса перестали быть уникальными, каждый из них можно подделать.
Гражданам, которые заботятся о своей приватности, можно посоветовать быть осторожным с использованием своего голоса — не передавать его по незащищённым каналам и говорить краткими фразами, чтобы злоумышленник не смог собрать достаточно материала для подделки личности.
Baidu создала программу, способную клонировать ваш голос за несколько секунд
Компания Baidu, которую нередко называют «китайским Google», опубликовала технический документ, в котором рассказывается о последних наработках в сфере искусственного интеллекта (ИИ). Система, работающая на базе нейронной сети, способна клонировать человеческий голос на основе анализа даже очень короткого фрагмента исходного материала. Программа не только весьма неплохо имитирует человеческую речь, но еще и способна вносить в нее свои особенности вроде акцента.
С примерами имитации человеческих голосов нейронной сетью можно ознакомиться, пройдя по этой ссылке.
Предыдущие версии данной технологии позволяли создавать имитацию человеческой речи на основе анализа более продолжительных образцов. В 2017 году команда инженеров из Baidu Deep Voice представила технологию, способную имитировать речь человека на основе 30-минутного исходного материала. Конкурентные разработки в этой сфере, в свою очередь, справлялись несколько быстрее. Например, программа VoCo от компании Adobe могла имитировать человеческую речь на основе всего 20-минутного демо. А разработка Lyrebird канадского стартапа демонстрировала еще более удивительную возможность – ей хватало всего минуты оригинального семпла человеческого голоса, чтобы создать его имитацию. Новая же разработка Baidu пошла еще дальше – ей достаточно всего лишь несколько секунд исходного материала.
На первый взгляд может показаться, что в подобных технологиях нет никакой практической пользы – так, одно баловство. Но это большое заблуждение. В будущем эти технологии определенно найдут свою сферу использования. Представьте себе человека, утратившего возможность говорить и вновь ее обретшего, пусть даже и посредством машины. Или неспокойного ребенка, не желающего ложиться в кровать, пока не услышит вашего голоса, читающего сказку, в то время как вы находитесь очень далеко и у вас просто нет физической возможности ему позвонить. Это лишь самая незначительная часть тех возможностей, которые могут открыться перед этой технологией.
Помимо этого, данная технология может использоваться, например, для создания персонализированных цифровых ассистентов, способных разговаривать с вами настоящим человеческим, а не компьютерным голосом.
Но, как и у любой другой технологии, здесь тоже есть своя обратная сторона медали. Мы можем столкнуться с ее злоупотреблением и использованием в не совсем законных целях. Портал New Scientist сообщает, что текущая версия программы смогла создать один тип голоса, который при проверке системой распознавания голоса в 95 процентах случаев смог ее обмануть. А люди так вообще оценили качество клонированных образцов на 3,16 балла из 4. Такими темпами рано или поздно мы можем столкнуться со случаями мошенничества с использованием искусственного интеллекта, отмечают журналисты.
В мире уже существуют программы, которые при помощи нейронных сетей способны изменять или даже имитировать человеческие лица на видео. Например, сейчас Интернет захлестнула волна порнороликов, в которых лица моделей заменяются на лица знаменитостей. Конечно, все это выглядит пока лишь обычной шалостью, но в скором времени, в сочетании с технологией, способной очень точно имитировать тот или иной голос, мы можем столкнуться с очередной волной «фейковых новостей», в которых видные деятели из различных сфер и политики будут говорить те вещи, которые они никогда бы не сказали на самом деле.
Многих людей уже сейчас можно обмануть, используя, казалось бы, такие обычные программы, как Photoshop. Представьте себе, с какими проблемами мы можем столкнуться, когда за дело возьмется попавший не в те руки искусственный интеллект, в миллиарды раз превосходящий возможности того же фотошопа.
Программа клонирования голоса от Baidu
Интернет гигант, и по совместительству «китайский Google», отчитался о работе, проведённой в сфере развития искусственного интеллекта. Компания представила интересный программный продукт, работающий с нейронными сетями, который способен за секунды клонировать голос любого человека. Программе достаточно проанализировать короткий фрагмент исходника, и на выходе получается неотличимый от оригинала клон голоса. Более того, помимо точных характеристик тембра и прочего, программа умеет придавать голосу особенности, к примеру, акцент.
Этот вариант является более продвинутой версией программы, которая имитировала голос, анализируя довольно длинные фрагменты образцов, но специалисты подразделения Deep Voice представили год назад продукт, которому хватает всего получасового фрагмента. Однако конкуренты тоже не спят, программа VoCo от знаменитой компании Adobe может имитировать речь, обработав двадцатиминутный материал, а молодая компания Lyrebird из Канады вообще продемонстрировала удивительные результаты – их программа могла создать клон на основе всего минутного фрагмента исходника.
Сферы применения
И вот новая подвижка в этом направлении от Baidu, теперь программе достаточно изучить всего несколько секунд исходника. Впечатляет, но для чего это всё, какая практическая польза от подобной технологии? О сути, это просто игрушка, баловство. Но не стоит спешить с выводами, поскольку точек приложения может быть очень много. Даже банальная болезнь, когда человек лишается на время или постоянно способности говорить. А технология ему эту способность вернёт, пусть и таким не очень естественным образом. А если у вас неспокойный ребёнок, не желающий засыпать, пока не услышит сказку от мамы, её голоса. И если вам некогда, либо вы далеко, то голос ваш сам прибудет к вашему ребёнку. Со всеми интонациями и характеристиками, даже если нет возможности связаться по телефону. Кроме того, голосовые ассистенты теперь будут говорить с вами тем голосом, который вам приятен и знаком.
Обратная сторона
Да, обратная сторона имеется у любой технологии, даже самой мирной на первый взгляд. В нашем случае, это злоупотребления технологией, голос известных людей могут использовать несанкционированно и в не очень законных целях. Сейчас лучшие системы распознавания голоса в подавляющем большинстве случаев идентифицируют клонированный голос как оригинал, это более 95 процентов. В этом кроются опасности, технология станет доступна широким массам, и случаи мошенничества не заставят себя ждать.
Сегодня уже существуют программы, основанные всё на тех же нейронных сетях, которые способны менять лица людей на видеоматериалах. Уже есть случаи изменения видео для взрослых, где используются лица знаменитых людей. И если пока это выглядит как обычное хулиганство, то в купе с идеальным копированием голоса, проблема может переместится на более высокий уровень. Фейковые новости, ложные заявления политиков, которые говорят то, чего на самом деле не сказали бы никогда. Даже нынешний уровень подмены в фотошопе многих людей способен обмануть, что же будет дальше, когда зачатки ИИ попадут в руки профессиональных мошенников. Ведь на сегодняшний день его возможности превосходят фотошоп в сотни раз.
Клонируй голоса знаменитостей 4+
изменение голоса и запись
Hobantay Inc.
Для iPad
Снимки экрана
Описание
Копируй голоса знаменитостей, шути и разыгрывай друзей!
С помощью Voxclone вы сможете:
— Воспроизвести любой голос из предоставленных в приложении (богатейший список на любой вкус: президенты, блогеры, телеведущие и даже сам тупа пажилой боров).
— Записать собственный голос для копирования (для корректного воспроизведения требуется всего 10 секунд чистой речи).
— Сделать запись и поделиться ею с друзьями или в социальных сетях.
Приложение отлично подходит для пранков и розыгрышей, а также с ним можно легко и весело скоротать время в одиночку или в компании.
—
Программа использует алгоритмы машинного обучения для клонирования голоса. Так как технология достаточно новая, пока еще не всегда удаётся достигнуть высокого качества клонирования, но мы постоянно стремимся к совершенству алгоритмов математической модели, выполняющего функции клонирования.
Пожалуйста, оставляйте свои отзывы и комментарии.
Используя Voxclone, вы соглашаетесь с нашей Политикой конфиденциальности и Условиями использования: