Новую ИИ-модель OpenAI научили игнорировать популярную лазейку

20 июля 2024, 21:45

OpenAI выпустила свою новейшую модель GPT-4o Mini, оснащенную новым методом защиты, позволяющим предотвратить обман чат-ботов с помощью лазейки «игнорирование всех предыдущих инструкций». Эта тактика, часто используемая для изменения принципа работы ИИ-ботов, может привести к непреднамеренному поведению, поскольку аннулировала первоначальные директивы бота.

Новую ИИ-модель OpenAI научили игнорировать популярную лазейку — © Ferra.ru

Новая техника, получившая название «иерархия инструкций», гарантирует, что модель будет отдавать предпочтение первоначальным инструкциям разработчика перед любыми последующими запросами пользователя. По словам Оливье Годемента, возглавляющего продукт платформы API в OpenAI, этот метод учит модель строго следовать системным сообщениям, тем самым блокируя несанкционированные команды.

Обновление прокладывает путь к полностью автоматизированным агентам, поскольку OpenAI стремится создать «надежных цифровых помощников», что может восстановить доверие и проложить путь к более широкому внедрению ИИ, считают аналитики.

Наука