Исследователи проверили качество ответов ИИ-поисковиков

«Пользователи часто жалуются — и исследования не раз подтверждали, — что, несмотря на серьезные улучшения, ИИ-системы все еще могут давать односторонние или вводящие в заблуждение ответы, — констатирует Феликс Саймон из Оксфордского университета. — Эта статья предоставляет интересные данные по проблеме, которые, надеюсь, подтолкнут к дальнейшему улучшению».
Однако не все столь уверены в результатах, даже если они совпадают с личным опытом ненадежности таких инструментов.
«Результаты исследования во многом зависят от аннотации собранных данных с помощью LLM. И здесь есть несколько проблем», — заметила Александра Урман из Цюрихского университета.
Любые результаты, размеченные с помощью ИИ, должны проверяться и валидироваться людьми — и Урман опасается, что исследователи сделали это недостаточно тщательно.
У нее также есть вопросы к статистическому методу, выбранному авторами для проверки соответствия между небольшой выборкой аннотаций людей и аннотациями LLM. Примененную в исследовании корреляцию Пирсона Урман назвала «крайне нестандартной и странной».
Несмотря на претензии к достоверности результатов, Саймон убежден в необходимости дальнейших исследований на эту архиактуальную тему.
«Необходимо повышать точность, разнообразие и качество источников в ответах ИИ, особенно с учетом того, что эти системы все шире внедряются в разных сферах», — заключил он.
Составлен рейтинг склонности нейросетей к галлюцинациям
Подписывайтесь и читайте «Науку» в Telegram