Skip to main content

Искусственный интеллект ежедневно улучшает свои способности на обширных массивов данных. GPT-3 был обучен на 300 миллиардах токенов текста, а для GPT-4 было расшифровано миллион часов видео с YouTube. Однако эксперты все чаще указывают на нехватку доступных данных – наступает кризис датасетов, когда качество информации ухудшается, и большие объемы больше не гарантируют лучшую обученность. О том, как российский рынок преодолевает это ограничение, рассказал тимлид Umbrella IT Артем Серяк. 

Данные не бесконечны 

Когда утверждают, что данные исчерпаны – это не совсем верно. Физически их по-прежнему достаточно, но подавляющее большинство информации, пригодной для обучения моделей, уже использовано, и повторное обучение на ней ухудшает качество. 

Тем не менее, существуют и другие проблемы: 

  • интернет быстро заполняется контентом, созданным ИИ, что увеличивает вероятность накопления ошибок и уменьшает разнообразие;

  • ужесточается контроль – работа с персональными и финансовыми данными требует сложной анонимизации и согласий, что приводит к дополнительным расходам для бизнеса; 

  • компании все чаще закрывают API и ограничивают веб-скрапинг, вводя платный доступ и технические преграды. Бесплатный интернет больше не является универсальным источником масштабируемых данных. 

В результате общий объем информации увеличивается, а количество доступных и качественных данных – нет. Согласно исследованию Массачусетского технологического института, 25% высококачественных источников среди всех данных ограничены для использования в обучении ИИ. 

Цена отказа от персональных данных 

В корпоративных решениях проблема чистоты данных менее актуальна, поскольку они «вырастают» из закрытого характера информации. Здесь важнее найти подходящий для задачи контекст, чем избегать загрязнения датасета обучения. Проблема чистоты более заметна при работе с открытыми источниками, поэтому компании сталкиваются с ограничениями на чистый, качественный и юридически доступный контент. 

Развивать корпоративные ИИ-решения без использования персональных данных возможно, однако такие решения будут иметь ограниченную сферу применения. Подобные модели менее подходят для персонализации, скоринга или анализа поведения. 

Вас может заинтересовать: 

VK Tech: бизнес инвестирует в ИИ-агентов и инфраструктуру данных

В результате бизнес оказывается перед выбором: строить архитектуру вокруг анонимизации, синтетических данных и RAG-подходов или вкладываться в сложные механизмы легального использования персональных данных. 

Масштабирование больше не решает проблемы 

Метод «просто увеличить модель» работал эффективно до тех пор, пока существовал доступ к новым качественным данным. В настоящее время эффект становится менее линейным, и вот почему: 

  • добавление новых данных не приводит к пропорциональному росту качества, а требования к ним только возрастают; 

  • нехватка качественных данных приводит к попаданию ИИ-контента в обучающие выборки и увеличивает число галлюцинаций; 

  • каждый этап масштабирования требует кратного увеличения мощностей, а стоимость обучения растет быстрее бизнес-ценности улучшений. Дополнительный процент точности обходится непропорционально дорого. 

Следовательно, масштабирование больше не может служить универсальным решением проблемы качества. Но что тогда может помочь, и есть ли вообще такой ответ? 

Бизнес ищет новые пути 

Когда стало очевидно, что простое увеличение объема обучающих данных неэффективно, бизнес начал искать альтернативные решения. Компании все чаще делают акцент на доменных моделях – специализированных решениях для конкретной отрасли. В финтехе это модели, обученные на финансовых текстах, транзакционных паттернах и нормативной документации, а в ритейле – на данных о товарах, поведении клиентов и логистике. Преимущество такого подхода – меньший объем данных, но большая релевантность. Например, «Сбер» активно развивает GigaChat и адаптирует его под бизнес-сценарии финтеха. Так появился Sber API – технология прямой интеграции с банком для автоматизации процессов и увеличения продаж. 

Вас может заинтересовать: 

Разработки в области ИИ будут осуществляться только внутри РФ

Вместо обучения «с нуля» компании дообучают существующие модели на своих данных: анонимных транзакциях, логах обращений, внутренних регламентах и переписках с клиентами. Fine-tuning позволяет адаптировать стиль ответов, терминологию и структуру выводов. «Авито» дообучило свою базовую языковую модель под определенные задачи – это оказалось эффективно и недорого. Команда «Яндекса» также использовала данные о товарах «Яндекс Маркета» для настройки Yandex GPT 5 Pro, создав ассистента для покупок. RAG – еще один практичный ответ на кризис датасетов. Компании не «зашивают» знания в параметры модели, а выносят их во внешние источники: базы знаний, регламенты, хранилища документов. В момент запроса модель обращается к базе и извлекает релевантный фрагмент. Этот подход был выбран командой «Банки.ру», интегрировавшей чат-бот для работы с внутренней документацией в корпоративный мессенджер. Это избавило от необходимости бесконечно искать документы в Confluence. 

Если реальных данных недостаточно, бизнес обращается к синтетическим. Здесь можно выбрать один из двух подходов: 

  • self-play – модель генерирует сценарии и обучается на них; 

  • self-distillation – крупная модель создает обучающие примеры для компактной.

Синтетические данные помогают смоделировать аварийные ситуации и аномалии, которые редко встречаются в реальности. Однако их использование связано с риском закрепления ошибок и когнитивных искажений. В настоящее время этот метод активно применяется там, где работа с реальными данными подразумевала бы взаимодействие с конфиденциальной информацией. Решение «Сбера» SyntData полностью воспроизводит смысл и структуру реальных данных, сохраняя зависимости исходных датасетов, при этом личная информация остается под надежной защитой. В прошлом году оно было отмечено на премии Data Award. 

Победа за лучшими данными 

Недостаточно просто обладать данными. Важно понимать, откуда они получены, на каких условиях используются, как обновляются и кто за них отвечает. Для компаний это означает необходимость создания процессов контроля качества, аудита и хранения данных. 

Кроме того, возрастает ценность собственных структурированных данных. Если у организации есть чистые данные, размеченные и взаимосвязанные, их легко использовать для внедрения ИИ. 

Поэтому инвестиции в очистку и разметку должны стать приоритетными – это напрямую влияет на точность моделей. Без этой работы ИИ просто масштабирует ошибки.

В конечном итоге выигрывает не тот, у кого больше параметров в модели, а тот, у кого лучшие данные. Более компактная модель на чистом, релевантном наборе работает стабильнее, чем огромная сеть, обученная на шумной выборке. Преимущество переходит от вычислительных мощностей к качеству корпоративной информации. 

Кризис датасетов – это не катастрофа, а признак зрелости рынка. Ранний этап развития ИИ основывался на масштабировании: больше параметров, токенов и вычислений. Теперь данных стало меньше, а их качество стало неоднородным. Для бизнеса это означает смену фокуса – от гонки моделей к управлению данными как активом. Тот, кто выстроит процессы работы с данными раньше своих конкурентов, получит устойчивое преимущество.

Вас может заинтересовать: 

Исследование: бизнес активнее внедряет ИИ в работе с клиентами

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий