! Новый многоязычный бенчмарк показал, что качество работы больших языковых моделей сильно зависит от языка: первое место занял польский, а вторую позицию — русский язык. В задачах на длинный контекст именно они обошли английский, немецкий и французский, несмотря на меньший объём обучающих данных. Причина — морфологическая «упаковка». И польский, и русский передают больше смысла в одном слове: падежи, время, род и связи кодируются компактно, что снижает число токенов и потери контекста. Для ИИ это означает более точное понимание запросов и лучшую работу с длинными контекстами.
Польский лучше всего подходит для нейросетей! Bóbr Kurwa ja pierdole
26 декабря 202526 дек 2025
~1 мин