Рынок ИИ-опенсорса в России: переиспользуемость и внедрения против побед на бенчмарках
В России бум развития опенсорс-решений в области ИИ-моделей, которые разработчики выкладывают в открытый доступ. Несмотря на то, что становление отечественного рынка ИИ-опенсорса началось сравнительно недавно, его рост впечатляет. Только в январе 2025 года появилось столько открытых ИИ-решений, сколько было опубликовано за весь 2020 год. И их становится все больше.
Крупные компании все чаще выкладывают свои модели в открытый доступ, сокращая технологический разрыв и способствуя развитию малого и среднего бизнеса, стартапов, университетов, научных лабораторий. Эксперты отмечают, что такой подход помогает выравнивать возможности игроков на рынке и способствует более быстрому распространению передовых технологий. Согласно прогнозам, к 2026 году около 92% российских компаний будут использовать решения, основанные на открытых моделях, тем самым ускоряя внедрение ИИ в различные процессы.
"Очень правильно, что сегодня и российские разработчики больших моделей пошли в эту открытость, которая на мировом рынке уже давно популярна - среди Llama и DeepSeek, например", - говорит Ярослав Кузьминов, научный руководитель НИУ ВШЭ и один из основателей университета. - "Чем больше крупных игроков вовлечено в процесс, тем больше обратной связи есть для разработчиков моделей, появляются новые кейсы и эталонные размеченные данные для ее дообучения".
Однако по мере появления новых решений внутри сообщества формируются все больше потребностей и требований к компаниям, которые вкладываются в опенсорс. Это вносит изменения в процесс развития рынка открытых ИИ-моделей в России.
Почему ИТ-сообществу нужны разные опенсорс-модели
Универсальных моделей, которые могли бы подходить всем без исключения, по мнению экспертов, не существует. Для продуктивной работы с языковыми моделями необходимо иметь доступ к разным версиям моделей: тем, которые доообучают под конкретные задачи (pretrain), и тем, которые готовы к внедрению в проект без доработок (instruct).
Наличие одной модели в двух версиях эксперты считают признаком зрелого подхода к разработке, основой нового вектора опенсорс-стратегии. Это позволяет обеспечить и научную достоверность (возможность анализа и кастомизации архитектур), и практическую ценность (мгновенную интеграцию в прикладные сценарии).
"Подобный подход помогает решать две разные задачи. С одной стороны, привлечь тех, кому не нужна предварительно обученная модель - они обучают ее с нуля на собственных данных. С другой - дать уже готовую предварительно обученную модель тем, кто в ней нуждается, так как не имеет собственных ресурсов на дообучение", - считает Ярослав Кузьминов.
Александр Диденко, руководитель Лаборатории искусственного интеллекта Школы управления Сколково, подтверждает важность подобного подхода: "Наличие двух версий одной модели - с поведенческими фильтрами и без - бесценная возможность для множества экспериментов, в том числе в области культурной ориентации LLM (способность учитывать культурные особенности, например, при обучении иностранному языку, - прим.), которые мы проводим у себя в Сколково. Наличие только instruct-версии снижает прозрачность и доверие, а наличие только pretrain повышает порог входа". Иными словами, если предоставляется только одна из версий, разработчики теряют гибкость, а исследователи - возможности для изучения. При этом совместное существование pretrain и instruct обеспечивает условия для экспериментов, настройки, тестирования фильтров, проверки устойчивости.
Азамат Жилоков, директор Института искусственного интеллекта МФТИ, подчеркивает: "Если задачи, которые планируется поручить модели, решаются ее instruct-версией "из коробки", то все хорошо. Если же нет, и задачи очень специфические (для отрасли или для конкретной компании), но решать их необходимо, то нужно выделить ресурсы (и человеческие, и вычислительные), чтобы подготовить размеченный набор данных и дообучить на нем pretrain-модель".
В России таких моделей пока несколько. Например, в 2025 году Яндекс представил сначала pretrain-версию с ограниченной лицензией, а позднее, отреагировав на запрос сообщества разработчиков, опубликовал instruct-версию с обновленной лицензией, которая позволяет использовать модель в том числе и в коммерческих целях, если объем выходных токенов не превышает 10 млн в месяц.
"Мы стараемся учитывать разносторонние запросы сообщества. В феврале мы выложили в опенсорс модель YandexGPT 5 Lite Pretrain, которую можно дообучить под свои специфические задачи. Но среди разработчиков и исследователей был также запрос на решение, которое сразу готово к внедрению в проект. Для них мы выложили в опенсорс Instruct-версию", - рассказывает Андрей Бут, руководитель направления YandexGPT Alignment.
Почему нельзя оценивать опенсорс-модели только на основе бенчмарков
В бесконечной гонке нейросетей, когда новые модели появляются едва ли не каждый месяц, эксперты задаются вопросом о критериях их успешности. Сейчас среди сообщества разработчиков приняты так называемые бенчмарки, когда модели тренируют решать конкретные задачи. Например, математические или логические задачи, писать код и т.д. Фактически это итоги теста, насколько нейросеть его прошла.
Эксперты опасаются, что фокус только на бенчмарки и достижение высоких показателей может в конечном итоге привести к тому, что разработчики могут сосредоточатся лишь на достижении формальных метрик в ущерб реальной полезности и надежности ИИ.
Подтверждает это и Ярослав Кузьминов. По его словам, бенчмарки - лишь верхушка айсберга, оценивающая способность решать узкие задачи. "Это просто оценка. Как за экзамен. Это имеет не всегда полную корреляцию с возможностями и границами реального применения моделей. Поэтому соревнование бенчмарков - это не более, чем соревнование двух школ в том, сколько отличников она выпустит в этом году. Интересно за этим наблюдать, но не всегда понятно, как это использовать в рабочем процессе и в каких-то конкретных пайплайнах", - говорит эксперт.
"Когда сообщают только успешные результаты экспериментов, это смещает представление о феномене. Как гласит закон Гудхарта: когда метрика становится целью, она перестает быть хорошей метрикой. Раньше технологическую продвинутость измеряли количеством патентов и статей в журналах, а сейчас значимым сигналом для инвесторов и сообщества разработчиков стало, сколько модель выбивает на бенчах в сравнении с SOTA (лучшие модели на рынке ― прим.). В результате поведение моделей начинает сходиться, между ними исчезает разница. Кто-то сказал: "Однажды все автопроизводители мира придумают одинаковый автомобиль". Сейчас происходит тот самый случай", - считает руководитель Лаборатории искусственного интеллекта Школы управления Сколково Александр Диденко.
Согласен с мнениями коллег и директор Института искусственного интеллекта МФТИ Азамат Жилоков: "Ориентироваться на одни лишь бенчмарки не стоит - как мы не ориентируемся исключительно на результаты выпускных экзаменов при подборе кандидатов и найме сотрудников. Результаты моделей на публичных бенчмарках являются важными показателями, по которым мы можем сопоставлять и сравнивать различные модели между собой. Важными, но не единственными".
На первый план выходят бизнес-применение и переиспользуемость в ИТ-сообществе
Учитывая широкое разнообразие сценариев использования нейросетей, индивидуальный контекст запросов, специфику отраслей применения, оценка тестирования становится шире, чем заложено в стандартных параметрах. Ключевыми критериями выбора нейросетей становятся бизнес-применимость и реальная польза, то есть влияние на эффективность или даже результативность.
"В реальном использовании LLM сталкиваются с многошаговыми диалогами, неоднозначными запросами, необходимостью уточнения, то есть тем, чего нет в статических бенчмарках. Если модель хороша в олимпиадной математике, то вовсе не факт, что она будет хороша "под капотом" корпоративного бота, отвечающего за онбординг сотрудников", - считает Александр Диденко.
Ярослав Кузьминов считает, что всегда надо тестировать модель в реальном секторе и видеть "клиентский путь" ее использования. "Стоит ориентироваться и на решение моделью конкретных задач, и на соотношение качества решения задач к потребляемым вычислительным ресурсам, и на особенности лицензирования, и на поддержку интеграции с другими информационными системами компании, и на мнение сообщества", - подтверждает Азамат Жилов.
Помимо бизнес-применения еще одним важным критерием зрелости опенсорс-решений является переиспользуемость. Если модель выложена в открытый доступ, ее можно использовать для дообучения, а потом сделать открытой для следующей итерации доработки другими разработчиками. Фактически, такие модели со временем (с каждым разом) начнут дообучать друг друга. Поэтому если модель активно дообучают, модифицируют, включают в свои продукты другие разработчики - это и есть реальное доказательство ее ценности. Настоящий опенсорс - это не сам факт публикации модели в открытом доступе или ее победа на бенчмарках, а участие в совместной эволюции, считают эксперты.
"Для нас главный показатель - это применимость моделей в конечных пользовательских продуктах, их польза для решения прикладных задач клиентов и сотрудников, а также частота использования наших открытых моделей в ИТ-сообществе. Например, на основе последней pretrain-модели Яндекса появились десятки дообученных версий от независимых разработчиков", - рассказывает Андрей Бут.