Причины лингвистической ограниченности моделей искусственного интеллекта
ChatGPT от OpenAI является одной из самых популярных в мире больших языковых моделей (LLM). Она занимает по меньшей мере половину мирового рынка, а география пользователей представлена более чем 100 странами. Однако у ChatGPT, как и у многих других широко распространенных моделей, есть один существенный недостаток – привязка к английскому языку. В одном из экспериментов с ее помощью генерировали рекомендации для продвижения бренда на английском, китайском и арабском языках (включая маркетинг, обслуживание клиентов, управление персоналом, исследования и разработки). Оказалось, что созданный искусственным интеллектом контент на арабском и китайском языках был менее креативным и релевантным, чем англоязычные версии.
ChatGPT неплохо справляется с задачей написания электронных писем клиентам на всех языках, но как только задачи переходят в техническую плоскость, результаты резко ухудшаются для арабского и китайского языков. Например, обрабатывая запрос об идеях для нового ударопрочного велосипедного шлема, модель предлагает подробную информацию о новейших технологиях и несколько реально осуществимых шагов на английском языке. В то же время на китайском и арабском языках она выдает расплывчатую информацию о технологическом ландшафте и не предлагает пошаговых вариантов для продвижения. Таким образом, неанглоязычные пользователи могут довольствоваться достаточно посредственными результатами при общении с LLM, а носители английского языка получают конкурентное преимущество. Этот разрыв, вероятно, усилится для задач, связанных с техническими знаниями и научными открытиями.
Китайские предприятия, использующие искусственный интеллект (например, для ускорения исследований или сокращения расходов), имеют широкий выбор моделей ИИ. Среди местных разработок можно выделить DeepSeek, Qwen и Kimi. Однако компании, чьи центральные офисы находятся за рубежом, по-прежнему предпочитают использовать ведущие западные модели, такие как ChatGPT или Gemini от Google, чтобы задействовать свои глобальные базы знаний или возможности программирования. Если компания из Кремниевой долины, разрабатывающая LLM, утверждает, что ее продукты помогают повышать производительность во всем мире, необходимо всегда иметь в виду оговорку об английском языке.

«Языковое неравенство» связано с тем, что ведущие модели в основном обучаются на огромных массивах текстовых данных, собранных со всего интернета. В интернете более половины всех областей используют английский язык в качестве языка по умолчанию, что отчасти объясняется американским происхождением «всемирной паутины». Подавляющее большинство важных данных для обучения (в частности, научные статьи и технические руководства) также представлены на английском языке, который является общепринятым языком межнационального общения (до 90% научных статей в мире были написаны именно на нем). Даже модели, разработанные китайскими компаниями, часто в значительной степени обучаются на англоязычном контенте, чтобы демонстрировать достойные результаты на глобальном рынке.
Многие неанглийские языки часто относятся к так называемым языкам с низким (например, суахили) или средним (например, вьетнамский) уровнем ресурсов. Соответственно, неизбежно возникает дефицит разнообразных текстов для обучения моделей ИИ на этих языках (таких как научные статьи, бизнес-кейсы или юридические документы). Наиболее ощутимым является пробел в креативности при выполнении задач, связанных с исследованиями и разработками. Стартап в Пекине, использующий ChatGPT на китайском языке для разработки нового медицинского устройства, фактически получает в свое распоряжение гораздо меньшую функциональность, чем стартап в Лондоне, работающий с LLM на английском языке. В глобальном масштабе это замедляет научный и экономический прогресс исследовательских организаций и даже целых стран.
Концентрация знаний в области ИИ на английском языке угрожает усилением неравенства, при котором англоязычные страны сохраняют преимущество в научном и экономическом прогрессе, а моноязычность подавляет инновации. Например, если модель предлагает практические шаги для научного открытия только на английском языке, оно с меньшей вероятностью будет способствовать дальнейшим исследованиям в неанглоязычных странах. И наоборот, если новая медицинская практика из развивающейся страны не выходит за рамки языка с ограниченными ресурсами, теряются потенциальные преимущества от ее применения. Для объективной оценки прогресс следует измерять эффективностью во всех языковых средах – это гарантирует, что ИИ выступает каналом, а не барьером для распространения знаний.

Технологические компании во многих странах мира работают над собственными локальными моделями, а некоторые правительства инвестируют в искусственный интеллект, адаптированный к конкретным языкам. К примеру, Южная Корея, запустила национальную кампанию по обеспечению суверенитета в области ИИ, а такие гиганты, как LG, Naver и SK Telecom, создают собственные платформы для обучения моделей. Также можно упомянуть о компании Falcon из ОАЭ, которая продвинулась в разработке алгоритмов для арабского языка. Однако большинство пользователей, не говорящих по-английски, по-прежнему полагаются на западные инструменты, которые предлагают широкие возможности и универсальность при международном сотрудничестве.
Не исключено, что для достижения мультиязычности потребуется изменить процесс создания моделей ИИ. Простой перевод результатов с английского на другие языки нельзя рассматривать как жизнеспособную стратегию из-за существенных различий в культуре, социальных нормах и деловых стандартах разных стран. Убедительное электронное письмо на английском языке может показаться грубым или неискренним после перевода на китайский язык.
Альтернативный подход предусматривает повышение приоритета данных на исходном языке. Разработчикам необходимо оцифровывать и предоставлять моделям больше научных и технических материалов на языках от арабского и китайского до вьетнамского и суахили. Тщательно отобранные переводы технических документов с английского на другие языки могут также стать важными учебными материалами, особенно для языков с ограниченными ресурсами.

Обучение с подкреплением на основе обратной связи от человека (RLHF) может оптимизировать результаты работы ИИ в неанглоязычных средах, предоставляя более связные и контекстно-релевантные ответы. В RLHF модель учится различать «хорошее» и «плохое» поведение посредством прямой обратной связи (например, ранжирование различных результатов по специализированным темам и их уточнение для исключения генерации контента сексуального характера). Разработчики также могут больше полагаться на такие методы, как генерация с расширенным поиском (RAG), которая позволяет модели искать конкретные документы и первоисточники, а не просто использовать свою память, в основном состоящую из англоязычных баз данных.
Можно продолжать идти по пути совершенствования ИИ, ориентированного на английский язык, что расширит межъязыковой разрыв, или рассматривать языковое разнообразие как техническую необходимость, а не как второстепенный фактор. Прогресс в области ИИ следует измерять не только скоростью написания бизнес-плана или научными открытиями на английском языке, но и эффективностью в различных языковых средах. Представители разных стран могут создавать и продвигать рейтинги, которые документируют показатели эффективности на нескольких языках, а профильные компании – использовать аналитику для продвижения на рынке и опережения конкурентов.
Когда мощные модели искусственного интеллекта строятся на неравномерной языковой основе, последствия выходят далеко за пределы лабораторий. В этом отношении представление об ИИ как об уравнителе может оказаться очередным мифом. Важно устранять «слепые пятна» на этапе проектирования, прежде чем языковые различия перерастут в устойчивое и трудно устранимое неравенство.
По материалам sixthtone.com