27 подписчиков

Польский лучше всего подходит для нейросетей! Bóbr Kurwa ja pierdole

26 декабря 202526 дек 2025

~1 мин

! Новый многоязычный бенчмарк показал, что качество работы больших языковых моделей сильно зависит от языка: первое место занял польский, а вторую позицию — русский язык. В задачах на длинный контекст именно они обошли английский, немецкий и французский, несмотря на меньший объём обучающих данных. Причина — морфологическая «упаковка». И польский, и русский передают больше смысла в одном слове: падежи, время, род и связи кодируются компактно, что снижает число токенов и потери контекста. Для ИИ это означает более точное понимание запросов и лучшую работу с длинными контекстами.

Польский лучше всего подходит для нейросетей! Bóbr Kurwa ja pierdole!

Новый многоязычный бенчмарк показал, что качество работы больших языковых моделей сильно зависит от языка: первое место занял польский, а вторую позицию — русский язык. В задачах на длинный контекст именно они обошли английский, немецкий и французский, несмотря на меньший объём обучающих данных.

Причина — морфологическая «упаковка». И польский, и русский передают больше смысла в одном слове: падежи, время, род и связи кодируются компактно, что снижает число токенов и потери контекста. Для ИИ это означает более точное понимание запросов и лучшую работу с длинными контекстами.