Исследователи Института AIRI создали новый эталон оценки качества работы языковых моделей искусственного интеллекта в химических исследованиях. Разработка планируется к презентации на конференции EMNLP 2025. Бенчмарк составлен из комбинаций типичных химических задач, имитирующих последовательность действий специалиста: от определения продуктов химических реакций до оценки их свойств и создания молекулярных описаний. Каждая цепочка воспроизводит реальные процессы, например, сначала требуется определить продукт реакции, затем оценить его биоактивность. Инструмент создан на основе пересечения существующих наборов данных о реакциях и свойствах молекул, что обеспечило его информативность для сложных многоступенчатых задач. В ходе оценки тестировались различные современные модели - как универсальные, так и адаптированные специально для химии. Результаты выявили различия в подходах: универсальные модели часто формируют логичные рассуждения, но могут проигрывать специализированным по формальны
Российские ученые представили инструмент тестирования ИИ для химии
1 ноября 20251 ноя 2025
14
1 мин