Найти в Дзене
ProGorodSamara

Нейросети любят русский: исследование показало, на какой язык ИИ отвечает точнее

Оглавление
   Фото: фрипик
Фото: фрипик

Международная группа ученых, в состав которой вошли специалисты из Университета Мэриленда и Microsoft, провела всесторонний анализ ведущих языковых моделей, таких как Gemini 1.5 Flash и Llama 3. Для этого исследования был разработан новый многоязычный тест под названием OneRuler, целью которого было оценить способность искусственного интеллекта (ИИ) эффективно работать с длинными текстами и решать сложные задачи. Эксперимент, результаты которого были опубликованы в "Вятка-на-сети", выявил интересные закономерности: польский язык показал более высокую точность выполнения задач по сравнению с английским, который занял лишь шестое место. Аналогичные результаты продемонстрировал и русский язык, также обойдя английский в тестах.

Польское превосходство в мультилингвальных тестах

Исследователи проанализировали 26 языков и обнаружили, что польский язык обладает высокой точностью выполнения команд, достигая 88%, особенно при работе с текстами длиной до 128 тысяч токенов. Интересно, что с увеличением объема текста разница в точности между языками возрастала, однако польский язык оставался лидером. Это указывает на высокую адаптивность и эффективность языковых моделей при обработке текстов на польском языке.

Влияние обучающих данных

Эксперты предположили, что высокая точность польского языка не связана с его лингвистическими особенностями, а скорее с неравномерным распределением обучающих данных. Вероятнее всего, польский язык был чрезмерно представлен в тренировочных наборах, что дало ему значительное преимущество в тестировании. Этот факт подчеркивает важность сбалансированного подхода к формированию обучающих выборок для обеспечения объективности и репрезентативности результатов.

Общественный резонанс и практические рекомендации

Публикация результатов исследования вызвала значительный общественный интерес в профессиональных кругах и социальных сетях. Многие начали шутить о том, что для эффективного взаимодействия с ИИ необходимо изучать польский язык. Однако специалисты подчеркивают важность сбалансированного подхода к обучающим данным. Это необходимо для обеспечения качественной работы ИИ на разных языках и предотвращения доминирования одних языков над другими.

Исследование также показало значительное снижение точности (до 20%) в кросс-языковых сценариях, когда инструкции и тексты были на разных языках. Это подчеркивает необходимость разработки универсальных алгоритмов обучения мультиязычных моделей. Новый тест OneRuler, созданный в рамках исследования, направлен на стимулирование разработчиков к улучшению алгоритмов, что позволит сделать ИИ более универсальным и эффективным при работе с документами на русском, английском, польском и других языках, пишет источник.

Читать на сайте