Найти в Дзене
📊 Можно ли доверять тестам ИИ?
Рубрика «Занимательные цифры» В тесте MMLU 57% заданий по биологии содержат ошибки, а русский аналог MMLU_RU просто машинный перевод. Перевод выполнен через API Яндекс.Переводчика. Есть некоторые ошибки перевода, особенно заметные в терминах и формулах, исправления не применялись...
10 месяцев назад
📊 Тест: мобильная Gemma 3 не хуже GPT-4 в резюмировании
Показывал в видео Qwen3-30B-A3B и ссылался на исследование. Стало интересно, как новые модели пишут резюме на русском. Без научных выкрутасов, на коленке: Разницы между гигантскими моделями типа GPT-4 и маленькой Gemma 3 (которую...
10 месяцев назад