Добавить в корзинуПозвонить
Найти в Дзене
Дмитрий Мишин

18. Деглобализация языковых моделей. ТЕХНОЛОГИИ. 100 трендов 2026

Искусственный интеллект становится локальным, потому что язык никогда не бывает нейтральным. Несмотря на обещание универсальности, сегодня самые популярные большие языковые модели (LLM) по-прежнему создаются с преимущественно англоцентрической точки зрения. В то время как такие системы, как ChatGPT и Gemini, обучаются на многоязычных наборах данных, пользователи из неанглоязычных стран часто сталкиваются с нюансами — неправильно понимают идиомы, неправильно переводят пословицы или упускают целые культурные регистры. Теперь волна региональных новаторов реагирует на это, создавая LLM, основанные на их собственной лингвистической и культурной ДНК, бросая вызов предположению, что глобальный ИИ обязательно должен означать западный. В Латинской Америке коалиция университетов и стартапов разрабатывает модель с открытым исходным кодом, призванную лучше понимать латинское языковое разнообразие — от чилийского сленга до бразильского португальского — и отражать культурный и политический дискурс р

Искусственный интеллект становится локальным, потому что язык никогда не бывает нейтральным.

Несмотря на обещание универсальности, сегодня самые популярные большие языковые модели (LLM) по-прежнему создаются с преимущественно англоцентрической точки зрения. В то время как такие системы, как ChatGPT и Gemini, обучаются на многоязычных наборах данных, пользователи из неанглоязычных стран часто сталкиваются с нюансами — неправильно понимают идиомы, неправильно переводят пословицы или упускают целые культурные регистры. Теперь волна региональных новаторов реагирует на это, создавая LLM, основанные на их собственной лингвистической и культурной ДНК, бросая вызов предположению, что глобальный ИИ обязательно должен означать западный.

В Латинской Америке коалиция университетов и стартапов разрабатывает модель с открытым исходным кодом, призванную лучше понимать латинское языковое разнообразие — от чилийского сленга до бразильского португальского — и отражать культурный и политический дискурс региона. Инициатива Latam-GPT направлена ​​на обеспечение представленности региональных данных, акцентов и идиом в системах машинного обучения. Проект позволит разработчикам по всему региону создавать приложения, которые понимают язык и реагируют на него так, как это принято в данной культуре, заполняя пробел, оставленный англоязычным ИИ.

Humain Chat
Humain Chat

Арабоязычный мир также делает успехи. В августе 2025 года саудовская компания Humain, при поддержке Государственного инвестиционного фонда (PIF), запустила Humain Chat, разговорный ИИ нового поколения для арабского языка, работающий на основе модели ALLAM 34B. Разработанный в Саудовской Аравии, он призван обслуживать носителей арабского языка как на местном, так и на глобальном уровне. В Объединенных Арабских Эмиратах Jais — еще один арабоязычный ИИ, разработанный компанией Inception из Абу-Даби, Университетом искусственного интеллекта им. Мохаммеда бин Зайеда и американской компанией Cerebras, — призван отразить лингвистическую и культурную глубину региона. По словам Inception, модель «обучена на самом большом арабском наборе данных, когда-либо использовавшемся для обучения базовой модели с открытым исходным кодом, что обеспечивает лингвистическую точность и культурную чувствительность как к стандартному арабскому языку, так и к его диалектам».

Sarvam AI
Sarvam AI

Это движение набирает обороты по всему миру. В Индии, где проживает одно из самых лингвистически разнообразных населений в мире, поддерживаемые правительством организации BharatGen и Sarvam AI создают мультимодальные системы, охватывающие более 20 индийских языков. По всей Африке появляются аналогичные инициативы: в Нигерии местные лаборатории ИИ, такие как Awarri, обучают базовые модели на корпусах языков йоруба, игбо и хауса, чтобы обеспечить представленность африканских языков и голосов в цифровом будущем.

Возможно, наиболее показательным примером этой волны локализации с помощью ИИ является DeepSeek, быстро развивающаяся китайская компания LLM, которая уже привлекает внимание всего мира своей эффективностью и способностью к рассуждению. Ее архитектура, разработанная для обработки как синтаксиса китайского языка, так и классического текста, оказалась конкурентоспособной по сравнению с системами, обученными на английском языке. «Цель никогда не заключалась просто в создании китайского аналога ChatGPT», — говорит основатель DeepSeek Лян Вэньфэн в интервью VML Intelligence. «Цель заключалась в создании модели, которая мыслит на китайском языке, а не просто переводит на него. Это различие имеет значение. Это означает, что ИИ может отражать культуру, а не сглаживать её».

Почему это интересно

По мере того, как регионы создают свои собственные модели LLM, следующая волна инноваций будет исходить не от универсальных моделей, а от культурно-адаптированных систем, которые понимают, как люди на самом деле говорят, думают и воображают, обеспечивая полифоническое, а не моноязычное цифровое будущее.