71,9 тыс подписчиков

В России разработали эталон для оценки химических языковых моделей

1 ноября 20251 ноя 2025

1 мин

Российские учёные создали инструмент, способный оценивать, насколько эффективно нейросетевые языковые модели решают реальные задачи химиков, требующие логических рассуждений и последовательности. Исследователи из Института AIRI представили новый бенчмарк, позволяющий проверять не просто фактологические ответы, а способность моделей решать сложные, взаимосвязанные задачи, характерные для химической практики. В основу бенчмарка легли композиции из трёх основных блоков: Определение продукта реакции, Предсказание его свойств (например, биоактивности), Генерация описания молекулы по её формуле. Такой подход воспроизводит логику работы химика: модель сначала выявляет, какое вещество образуется, затем оценивает, обладает ли оно важными свойствами, и в завершение формулирует описание. Для создания эталона исследователи пересекли наборы данных по реакциям и по свойствам молекул, чтобы ни одна задача не была тривиальной. В экспериментах сравнивали универсальные языковые модели и химически ориент

Исследователи из Института AIRI представили новый бенчмарк, позволяющий проверять не просто фактологические ответы, а способность моделей решать сложные, взаимосвязанные задачи, характерные для химической практики.

В основу бенчмарка легли композиции из трёх основных блоков:

Определение продукта реакции,

Предсказание его свойств (например, биоактивности),

Генерация описания молекулы по её формуле.

Такой подход воспроизводит логику работы химика: модель сначала выявляет, какое вещество образуется, затем оценивает, обладает ли оно важными свойствами, и в завершение формулирует описание.

Для создания эталона исследователи пересекли наборы данных по реакциям и по свойствам молекул, чтобы ни одна задача не была тривиальной.

В экспериментах сравнивали универсальные языковые модели и химически ориентированные LLM. Универсальные модели часто дают содержательные ответы, но по автоматическим метрикам их решения могут оцениваться хуже. Специализированные модели чаще дают корректные ответы, однако не всегда выдерживают формальные метрики качества.

По словам Кузьмы Храброва, научного сотрудника группы органической химии центра AIDD при AIRI, “этот бенчмарк призван помочь разработчикам глубже понять архитектурные ограничения нейросетей и может стать базой для автоматизации химических рассуждений”.

Ожидается, что результаты работы будут представлены на конференции EMNLP 2025 с рейтингом A*.

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Обложка: freepik

Медицина

1,97 млн интересуются