309 подписчиков

18. Деглобализация языковых моделей. ТЕХНОЛОГИИ. 100 трендов 2026

2 дня назад2 дня назад

3 мин

Искусственный интеллект становится локальным, потому что язык никогда не бывает нейтральным. Несмотря на обещание универсальности, сегодня самые популярные большие языковые модели (LLM) по-прежнему создаются с преимущественно англоцентрической точки зрения. В то время как такие системы, как ChatGPT и Gemini, обучаются на многоязычных наборах данных, пользователи из неанглоязычных стран часто сталкиваются с нюансами — неправильно понимают идиомы, неправильно переводят пословицы или упускают целые культурные регистры. Теперь волна региональных новаторов реагирует на это, создавая LLM, основанные на их собственной лингвистической и культурной ДНК, бросая вызов предположению, что глобальный ИИ обязательно должен означать западный. В Латинской Америке коалиция университетов и стартапов разрабатывает модель с открытым исходным кодом, призванную лучше понимать латинское языковое разнообразие — от чилийского сленга до бразильского португальского — и отражать культурный и политический дискурс р

Искусственный интеллект становится локальным, потому что язык никогда не бывает нейтральным.

Несмотря на обещание универсальности, сегодня самые популярные большие языковые модели (LLM) по-прежнему создаются с преимущественно англоцентрической точки зрения. В то время как такие системы, как ChatGPT и Gemini, обучаются на многоязычных наборах данных, пользователи из неанглоязычных стран часто сталкиваются с нюансами — неправильно понимают идиомы, неправильно переводят пословицы или упускают целые культурные регистры. Теперь волна региональных новаторов реагирует на это, создавая LLM, основанные на их собственной лингвистической и культурной ДНК, бросая вызов предположению, что глобальный ИИ обязательно должен означать западный.

В Латинской Америке коалиция университетов и стартапов разрабатывает модель с открытым исходным кодом, призванную лучше понимать латинское языковое разнообразие — от чилийского сленга до бразильского португальского — и отражать культурный и политический дискурс региона. Инициатива Latam-GPT направлена на обеспечение представленности региональных данных, акцентов и идиом в системах машинного обучения. Проект позволит разработчикам по всему региону создавать приложения, которые понимают язык и реагируют на него так, как это принято в данной культуре, заполняя пробел, оставленный англоязычным ИИ.

Арабоязычный мир также делает успехи. В августе 2025 года саудовская компания Humain, при поддержке Государственного инвестиционного фонда (PIF), запустила Humain Chat, разговорный ИИ нового поколения для арабского языка, работающий на основе модели ALLAM 34B. Разработанный в Саудовской Аравии, он призван обслуживать носителей арабского языка как на местном, так и на глобальном уровне. В Объединенных Арабских Эмиратах Jais — еще один арабоязычный ИИ, разработанный компанией Inception из Абу-Даби, Университетом искусственного интеллекта им. Мохаммеда бин Зайеда и американской компанией Cerebras, — призван отразить лингвистическую и культурную глубину региона. По словам Inception, модель «обучена на самом большом арабском наборе данных, когда-либо использовавшемся для обучения базовой модели с открытым исходным кодом, что обеспечивает лингвистическую точность и культурную чувствительность как к стандартному арабскому языку, так и к его диалектам».

Это движение набирает обороты по всему миру. В Индии, где проживает одно из самых лингвистически разнообразных населений в мире, поддерживаемые правительством организации BharatGen и Sarvam AI создают мультимодальные системы, охватывающие более 20 индийских языков. По всей Африке появляются аналогичные инициативы: в Нигерии местные лаборатории ИИ, такие как Awarri, обучают базовые модели на корпусах языков йоруба, игбо и хауса, чтобы обеспечить представленность африканских языков и голосов в цифровом будущем.

Возможно, наиболее показательным примером этой волны локализации с помощью ИИ является DeepSeek, быстро развивающаяся китайская компания LLM, которая уже привлекает внимание всего мира своей эффективностью и способностью к рассуждению. Ее архитектура, разработанная для обработки как синтаксиса китайского языка, так и классического текста, оказалась конкурентоспособной по сравнению с системами, обученными на английском языке. «Цель никогда не заключалась просто в создании китайского аналога ChatGPT», — говорит основатель DeepSeek Лян Вэньфэн в интервью VML Intelligence. «Цель заключалась в создании модели, которая мыслит на китайском языке, а не просто переводит на него. Это различие имеет значение. Это означает, что ИИ может отражать культуру, а не сглаживать её».

Почему это интересно

По мере того, как регионы создают свои собственные модели LLM, следующая волна инноваций будет исходить не от универсальных моделей, а от культурно-адаптированных систем, которые понимают, как люди на самом деле говорят, думают и воображают, обеспечивая полифоническое, а не моноязычное цифровое будущее.