Исследователи загрузили 7,9 миллионов речей в ИИ, и то, что они обнаружили, переворачивает наше понимание языка

<p>Масштабное исследование, проанализировавшее с помощью искусственного интеллекта 7,9 миллионов речей Конгресса США, произнесенных с 1873 по 2010 год, опровергает устоявшееся представление о том, как меняется язык. Оказалось, что семантические изменения — эволюция значений слов — носят гораздо более инклюзивный характер, чем считалось ранее.</p><p><b>Главный вывод</b>, опубликованный в журнале <b>Proceedings of the National Academy of Sciences</b>, заключается в том, что пожилые носители языка не остаются в прошлом. Вопреки старой социолингвистической модели, которая предполагала, что язык развивается преимущественно за счет смены поколений, новое исследование показывает: носители всех возрастов активно участвуют в изменениях. Молодые люди лишь ненамного опережают старших, которые подхватывают новые значения слов в среднем всего через <b>2-3 года</b>. А в некоторых случаях, как, например, с геополитическим значением слова «спутник» во времена Холодной войны, именно старшее поколение лидировало в этом изменении.</p><p><b>«Основной результат, заключающийся в том, что пожилые люди адаптивны к новым значениям слов, сам по себе стал неожиданностью», — признался ведущий автор исследования Гаурав Камат. — Но еще большим сюрпризом стало то, что для некоторых слов мы обнаружили свидетельства того, что именно старшие носители языка возглавляли изменения».</b></p><p>Это открытие кардинально меняет подход к изучению языковой эволюции. Десятилетиями лингвисты полагались на метод «кажущегося времени», сравнивая речь разных поколений в один момент времени. Этот метод основывался на предположении, что взрослые сохраняют стабильные языковые модели на протяжении жизни. Если же носители языка старшего поколения постоянно адаптируются к новым тенденциям, такие сравнения могут давать искаженную картину и недооценивать скорость изменений.</p><p><b>Методология исследования была новаторской:</b> ИИ анализировал около 100 слов, которые, вероятно, изменили свое значение в XX веке (например, «монитор», «статьи», «выдающийся»). С помощью продвинутых языковых моделей и алгоритмов кластеризации ученые выявляли различные «смыслы» каждого слова в контексте и отслеживали, как их использование менялось с течением времени у тысячи ораторов, чей возраст был точно известен.</p><p><b>Ограничения и будущие исследования</b></p><p>Авторы работы отмечают и ограничения своего исследования. В фокусе анализа была речь исключительно взрослых людей (членов Конгресса США), а подростки и молодежь, которые часто являются главными драйверами языковых инноваций, в выборку не попали. Кроме того, исследуемая группа — американские законодатели — не является социально репрезентативной.</p><p>Тем не менее, это исследование — мощная демонстрация того, как большие данные и вычислительные методы позволяют отвечать на фундаментальные вопросы о человеческом языке, которые раньше казались недостижимыми для системного анализа.</p>