80 подписчиков

Чат-боты могут прививать вам чужую культуру

23 апреля23 апр

2 мин

Большие языковые модели переводят только слова, не учитывая ценности разных стран. Исследование показало: за беглой речью на любом языке стоит одинаковое мировоззрение, в подавляющем большинстве — американское. В рамках эксперимента исследователи из Индонезии обратились к ChatGPT с просьбой уладить семейный конфликт. Бот ответил на идеальном индонезийском, но совет был по сути американским: «ставьте свои предпочтения выше, а если члены семьи не уважают ваши границы, подумайте о том, чтобы разорвать с ними отношения». В основе ответа лежали ценности, ставящие индивидуальную автономию выше достижения консенсуса, социальной гармонии и коллективной семейной динамики. А это ценности, которые, как правило, играют более важную роль в индонезийском обществе. Ученые решили провести еще ряд экспериментов с другими языковыми моделями (вроде ChatGPT, Claude, Gemini) и обнаружили закономерность, характерную для основных систем искусственного интеллекта: даже если языковые модели свободно владеют н

В рамках эксперимента исследователи из Индонезии обратились к ChatGPT с просьбой уладить семейный конфликт. Бот ответил на идеальном индонезийском, но совет был по сути американским: «ставьте свои предпочтения выше, а если члены семьи не уважают ваши границы, подумайте о том, чтобы разорвать с ними отношения».

yandex.ru

Получите бонусы от Яндекса

В основе ответа лежали ценности, ставящие индивидуальную автономию выше достижения консенсуса, социальной гармонии и коллективной семейной динамики. А это ценности, которые, как правило, играют более важную роль в индонезийском обществе.

Ученые решили провести еще ряд экспериментов с другими языковыми моделями (вроде ChatGPT, Claude, Gemini) и обнаружили закономерность, характерную для основных систем искусственного интеллекта: даже если языковые модели свободно владеют несколькими языками, они сохраняют западное мировоззрение. Результаты опубликованы в International Review of Modern Sociology.

redirect.appmetrica.yandex.com

Проблема в том, что модели обучались на основе данных, полученных преимущественно из англоязычных источников в основном из США. Так одна из моделей с открытым исходным кодом LLaMA 2 была обучена на текстах, в которых английский язык использовался примерно в 89,7% случаев; LLaMA 3 содержит лишь около 5% данных не на английском языке. Крупные коммерческие модели не публикуют аналогичную разбивку, но в значительной степени опираются на те же источники. На арабский язык, пятый по распространенности в мире, приходится меньше 1% контента в крупных обучающих наборах данных.

ya.ru

Верификация

Более того, исследователи выяснили, что большие языковые модели сначала рассуждают на английском, и только потом переводят свой ответ на нужный язык. В итоге пользователь получает безупречный текст, но логика, лежащая в его основе, взята из другой культуры.

В экспериментах принимал участие специалист по индонезийской культуре Гарет Биркин. Он задавал вопросы на индонезийском про образование (pendidikan). Ответы делали акцент на индивидуальном развитии и карьере, игнорируя местный упор на этическую дисциплину. Другой пример — понятие malu (ложно переводится как стыд или смущение). В сценариях модели сводили его к личной эмоции, хотя в реальности это социальная осознанность, регулирующая поведение в семье и общине. Это чувство регулирует поведение и сигнализирует о том, что человек осознает свое положение в системе взаимоотношений между близкими. Его нужно культивировать, а не просто испытывать. Это скорее форма осознания отношений, чем внутреннее психологическое переживание.

redirect.appmetrica.yandex.com

Скачать бесплатное приложение Яндекс с Алисой для iOS и Android

Когда моделям прямо задали вопрос о том, что такое malu, они признали его социальную составляющую. Однако в вопросах, основанных на сценариях, в которых слово использовалось без определения, все три модели вернулись к английскому переводу слова shame (стыд), неизменно трактуя его как индивидуальный эмоциональный опыт.

Авторы исследования считают, что ситуация не изменится, поскольку перевод дешевле, чем переобучение модели на неанглийских данных. Исключение — китайские DeepSeek и Qwen, но они несут китайскую культурную традицию. Региональные модели вроде SEA-LION достраиваются поверх американских.

Эта проблема очень важна. ИИ общается с человеком на его родном языке, с теплотой и участием. А значит, есть риск, что западные представления о семье, образовании и личной ответственности станут «новой нормой» для всего мира. Языковое разнообразие ИИ растет, а мировоззренческое — нет.