Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов. Выложен датасет UnsolvedMath — это: - 1000+ открытых математических проблем - 600+ задач из списка Эрдёша - аккуратно структурировано в machine-friendly формате Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки. Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение. Почему это важно Обычные тесты: - часто содержат задачи, похожие на обучающие данные - проверяют знание, а не исследовательское мышление UnsolvedMath: - требует построения новых гипотез - проверяет глубину логики - показывает, способна ли модель делать научно полезные инсайты Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели. Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом. Обещают тесты и подробный whitepaper. Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способ
🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ
25 января25 янв
6
~1 мин