31 подписчик

Anthropic открыла «неубиваемое» домашнее задание для найма

23 января23 янв

3 мин

Anthropic столкнулась с ситуацией, которая ещё недавно казалась фантастикой: их знаменитое сложное домашнее задание для кандидатов‑инженеров перестало работать, потому что Claude Opus 4.5 решает его на уровне лучших людей. Итог — компания фактически признала: традиционные технические письменные тесты больше не отделяют «сильных» от «самых сильных», если у кандидата есть доступ к топ‑модели. Поэтому Anthropic выложила старую версию задания в открытый доступ и публично попросила сообщество помочь придумать способы реально оценивать человеческое программирование в эпоху ИИ. Открытый репозиторий: github.com/anthropics/original_performance_takehome

Статья Anthropic о «AI‑устойчивых» оценках: anthropic.com/engineering/AI-resistant-technical-evaluations Что это был за тест и почему он считался идеальным С начала 2024 года команда performance‑инженеров Anthropic использовала take‑home‑задание: кандидат должен был оптимизировать код под симулированный ускоритель, а затем анализировать выполнен

Итог — компания фактически признала: традиционные технические письменные тесты больше не отделяют «сильных» от «самых сильных», если у кандидата есть доступ к топ‑модели. Поэтому Anthropic выложила старую версию задания в открытый доступ и публично попросила сообщество помочь придумать способы реально оценивать человеческое программирование в эпоху ИИ.

Открытый репозиторий: github.com/anthropics/original_performance_takehome
Статья Anthropic о «AI‑устойчивых» оценках: anthropic.com/engineering/AI-resistant-technical-evaluations

Что это был за тест и почему он считался идеальным

С начала 2024 года команда performance‑инженеров Anthropic использовала take‑home‑задание: кандидат должен был оптимизировать код под симулированный ускоритель, а затем анализировать выполнение через Perfetto trace (трасса показывала каждую «инструкцию» — по ощущениям близко к инструментам, применяемым на реальных кластерах).

Задание специально делали «как настоящая работа», а не как олимпиадную задачку. Формат давал преимущества:

более реалистичное окно времени (сначала 4 часа, позже 2),
работа в своём окружении без давления интервью,
проверка системного мышления (профилирование, поиск узких мест, итеративные улучшения),
и важно: ИИ‑помощь была разрешена, потому что на длинных задачах «просто подсунуть в модель» раньше не гарантировало топ‑результата.

Симулятор включал «жёсткие» особенности ускорителей: ручное управление scratchpad‑памятью, VLIW (упаковка инструкций), SIMD (векторизация) и многоядерность. Стартовая реализация была полностью последовательной — кандидат должен был шаг за шагом раскрыть параллелизм. По словам авторов, тест отсеял лучших из более чем тысячи претендентов и помог собрать команду, которая строила и запускала инфраструктуру под релизы моделей.

Как ИИ «сломал» отбор

Поворот начался, когда модели стали давать кандидатам высокий балл почти «в лоб». Claude Opus 4 уже превосходил большинство людей в заданном времени, но всё ещё позволял отделить элиту. А Claude Opus 4.5, по описанию, дотянулся до человеческого потолка: за 2 часа он прошёл типовые оптимизации, упёрся в ограничение пропускной способности памяти (как и многие люди), а затем — после подсказки про «теоретический предел» — нашёл редкий трюк, известный единицам. Внутренние проверки показали: с увеличением времени на размышление результат модели продолжает улучшаться.

Авторы приводят метрики «циклов» (меньше — лучше):

2164 — Claude Opus 4
1790 — Claude Opus 4.5 («быстрый прогон»)
1487 — Claude Opus 4.5 (11,5 часа размышлений)
1363 — Claude Opus 4.5 (после улучшения фреймворка)

То есть в условиях интервью «человек vs модель» уже трудно различим.

Почему просто «запретить ИИ» не вариант

Anthropic отказалась от идеи банить ИИ: в реальной работе инженеры всё равно будут писать код вместе с моделями. Поднимать проходной балл тоже опасно — кандидат рискует стать зрителем, который не понимает, что именно сделала модель и почему.

На практике, утверждают авторы, ценность performance‑инженера — это не только «написать оптимизацию», а тяжёлая отладка, построение инструментов, системный дизайн и умение превращать AI‑сгенерированный код в надёжное, объяснимое решение. Это сложно измерить «объективным тестом».

Что делают дальше: задания «вне распределения»

Пробовали заменить задачу на более «реальную» и сложную — модель снова находила обходной путь. Тогда разработчик теста ушёл в сторону out‑of‑distribution задач, похожих на головоломки Zachtronics: сверхограниченный набор инструкций, минимизация «количества команд», почти без отладочных инструментов — кандидату приходится самому строить tooling (в том числе с помощью ИИ). На таком формате Claude Opus 4.5, по их словам, уже начал сбоить, а результаты лучше коррелировали с реальными навыками людей — ценой потери «реалистичности» прежнего теста.

Публикуя старое задание, Anthropic фактически говорит индустрии: эпоха “домашек, которые нельзя списать” закончилась, и теперь нужен новый дизайн оценок, где проверяется не умение вызвать модель, а способность думать, проверять, измерять и отвечать за результат.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/