Голос ИИ больше не отличить от настоящего, показало исследование

Голос ИИ больше не отличить от настоящего, показало исследование
© Naukatv.ru

Многим из нас кажется, что сгенерированная искусственным интеллектом речь звучит «фальшиво» или неубедительно, и ее легко отличить от человеческого голоса. На самом деле стремительное развитие технологий оставило эти представления в прошлом.

Лондонский университет королевы Марии (QMUL) провел исследование восприятия различных «клонов голоса», его результаты опубликованы в журнале PLOS One. Выяснилось, что звуковые дипфейки больше не отличить от голосов реальных людей.

В исследовании сравнивали человеческие голоса с двумя разными типами синтетических голосов, созданных с помощью передовых инструментов синтеза речи на основе ИИ. Одни были «клонированы» из записей реальных людей с целью их имитации, а другие сгенерированы большой голосовой моделью и не имели конкретного человеческого прототипа.

Участников попросили ответить, какие голоса звучат наиболее реалистично, а также оценить степень их убедительности и вызываемого доверия. Исследователи также проверили ИИ-голоса на эффект «гиперреализма», хорошо знакомый нам по изображениям лиц (хотя некоторые исследования уже утверждают, что сгенерированные ИИ портреты кажутся порой более человеческими, чем настоящие фото).

Как оказалось, клоны голоса звучат так же реалистично, как и человеческие голоса, причем без перекоса в «гиперреализм», что затрудняет для слушателей их различение. Оба типа голосов, созданных ИИ, были оценены как более доминантные по сравнению с человеческими, а некоторые также воспринимались как более заслуживающие доверия.

«Голоса, созданные ИИ, окружают нас повсюду. Мы все разговариваем с Алисой или Siri, или звоним в поддержку, где нам отвечают автоматизированные системы обслуживания клиентов. Они пока не звучат совсем как реальные человеческие голоса, но было лишь вопросом времени, когда технология ИИ начнет производить натуралистичную человеческую речь. Наше исследование показывает, что это время пришло, и срочно нужно понять, как люди воспринимают эти искусственные голоса», — пояснила старший преподаватель психологии QMUL Надин Лаван, соавтор исследования.

Она призналась, что поражена, насколько простым стало создание голосовых дипфейков: «Процесс требует минимальных навыков, всего несколько минут записи голоса и почти никаких денег. Это просто показывает, насколько доступной и совершенной стала технология ИИ-голосов».

Прогресс в этой сфере впечатляющий, что влечет множество последствий для этики, авторского права и безопасности, особенно в таких чувствительных областях, как дезинформация, мошенничество и выдача себя за другого человека.

«Однако возможность генерировать реалистичные голоса в больших масштабах открывает захватывающие перспективы. Могут появиться приложения для повышения доступности в сфере образования и коммуникации, где высококачественные синтетические голоса по индивидуальному заказу помогут улучшить пользовательский опыт», — добавила исследовательница.

Искусственный интеллект научился создавать наши копии для работы и совещаний

У дипфейков появилось сердце

Подписывайтесь и читайте «Науку» в Telegram