Компания OpenAI разработала ИИ-бенчмарк LifeSciBench, условия работы которого максимально приближены к реальной научной работе. Как оказалось, такой сценарий применения нейросетей до сих пор был сильно переоценён разработчиками последних. Тестирование проводилось в метрике pass rate — когда задача считается решённой только при выполнении 70% рубрики. При этом бенчмарк заставляет ИИ работать в условиях неопределённости и требует анализировать «грязные» данные, как это обычно делают учёные в реальности. Специальный тест содержит 750 вопросов, составленных разработчиками совместно с докторами наук из сферы биотехнологии и фармацевтики. Больше половины задач требуют работать не только с текстом промпта, но и с приложенными файлами, включая графики, таблицы и последовательности. Всё это позволяет сделать оценку более объективной по сравнению с метрикой Score (когда учитываются только отдельные ответы в выбранных категориях). Согласно полученным данным, даже флагманская модель GPT-Rosali