Искусственный интеллект «запел» неслыханными звуками

25 ноября 2024, 22:53

В демонстрационном видео Fugatto создаёт композиции по нестандартным запросам, например: «Сымитируй вой саксофона, затем лай, а после этого добавь электронную музыку с лаем собак». Среди других возможностей, которые показала Nvidia, — создание уникальных звуковых эффектов по описанию, таких как «глубокие, грохочущие басовые импульсы, дополненные прерывистыми, высокими цифровыми щебетаниями, напоминающими пробуждение гигантской разумной машины».

Искусственный интеллект «запел» неслыханными звуками — © It-world

Кроме того, Fugatto способен изменять звук голоса, трансформируя акцент или тон, делая его, например, спокойным или сердитым. Инструмент также поддерживает редактирование музыки: он может выделять вокал, добавлять новые инструменты или изменять звучание, например, заменяя фортепиано оперным вокалом.

В сопроводительной документации Nvidia приводит список наборов данных, использованных для обучения Fugatto, включая библиотеку звуковых эффектов BBC. Хотя на рынке уже есть другие ИИ-инструменты для работы с аудио, такие как Stability AI, OpenAI, Google DeepMind, ElevenLabs и Adobe, Fugatto выделяется своей способностью создавать звуки, которые не существовали ранее.

Стоит отметить, что некоторые стартапы, разрабатывающие музыкальные ИИ, сталкиваются с исками за нарушение авторских прав, а недавние расследования показывают, что такие компании, как Nvidia, обучали свои модели на субтитрах тысяч YouTube-видео. Для разработки Fugatto исследователям пришлось собрать массивный набор данных с миллионами аудиосэмплов и разработать инструкции, которые расширили функциональность модели, сделав её более точной и универсальной.

Пока неизвестно, станет ли Fugatto доступным для широкой аудитории и когда это произойдёт.

Наука

Google