11,4 тыс подписчиков

🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ

25 января25 янв

~1 мин

Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов. Выложен датасет UnsolvedMath — это: - 1000+ открытых математических проблем - 600+ задач из списка Эрдёша - аккуратно структурировано в machine-friendly формате Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки. Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение. Почему это важно Обычные тесты: - часто содержат задачи, похожие на обучающие данные - проверяют знание, а не исследовательское мышление UnsolvedMath: - требует построения новых гипотез - проверяет глубину логики - показывает, способна ли модель делать научно полезные инсайты Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели. Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом. Обещают тесты и подробный whitepaper. Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способ

Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.

Выложен датасет UnsolvedMath — это:

- 1000+ открытых математических проблем

- 600+ задач из списка Эрдёша

- аккуратно структурировано в machine-friendly формате

Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.

Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.

Почему это важно

Обычные тесты:

- часто содержат задачи, похожие на обучающие данные

- проверяют знание, а не исследовательское мышление

UnsolvedMath:

- требует построения новых гипотез

- проверяет глубину логики

- показывает, способна ли модель делать научно полезные инсайты

Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.

Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.

Обещают тесты и подробный whitepaper.

Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.

https://huggingface.co/datasets/ulamai/UnsolvedMath

Гаджеты и электроника

5,73 млн интересуются