Российские учёные создали инструмент, способный оценивать, насколько эффективно нейросетевые языковые модели решают реальные задачи химиков, требующие логических рассуждений и последовательности. Исследователи из Института AIRI представили новый бенчмарк, позволяющий проверять не просто фактологические ответы, а способность моделей решать сложные, взаимосвязанные задачи, характерные для химической практики. В основу бенчмарка легли композиции из трёх основных блоков: Определение продукта реакции, Предсказание его свойств (например, биоактивности), Генерация описания молекулы по её формуле. Такой подход воспроизводит логику работы химика: модель сначала выявляет, какое вещество образуется, затем оценивает, обладает ли оно важными свойствами, и в завершение формулирует описание. Для создания эталона исследователи пересекли наборы данных по реакциям и по свойствам молекул, чтобы ни одна задача не была тривиальной. В экспериментах сравнивали универсальные языковые модели и химически ориент
В России разработали эталон для оценки химических языковых моделей
1 ноября 20251 ноя 2025
10
1 мин