ChatGPT проверили тестом Тьюринга
Ученые Калифорнийского университета показали, что ChatGPT пока еще не способен пройти тест Тьюринга, то есть он не может генерировать тексты, неотличимые от тех, что созданы человеком. Результаты исследования опубликованы в препринте на сайте arXiv.
Кэмерон Джонс, специализирующийся на языке, семантике и машинном обучении, и Бенджамин Берген, профессор когнитивных наук, проверили лучшую на настоящий момент языковую модель, опираясь на работу Алана Тьюринга, который 70 лет назад разработал тест, позволяющий определить, способна ли машина достичь уровня интеллекта и разговорной речи.
В их исследовании приняли участие 650 человек, которые вступали в беседы друг с другом или с GPT, после чего им предлагалось определить, с кем они разговаривали. Исследователи обнаружили, что модели GPT-4 обманули участников в 41 проценте случаев, тогда как модели GPT-3.5 обманули их только в 5-14 процентах случаев. Людям удалось убедить участников, что они не машины, только в 63 процентах испытаний.
Согласно выводам ученых, GPT-4 не проходит тест Тьюринга. Однако во многих случаях чат-боты все еще могут общаться достаточно убедительно, чтобы обманывать пользователей.