Существующие методы оценки искусственного интеллекта (ИИ) устарели — они не соответствуют реальным условиям использования технологий. Эта проблема остается актуальной для разработки и развертывания ИИ в бизнесе и других сферах. На протяжении десятилетий ИИ оценивался по тому, насколько машины могут превзойти людей в выполнении конкретных задач, таких как шахматы, математика или написание эссе. Как показывает практика, большинство ИИ используется не в изолированных условиях, а в сложных организационных процессах. Это приводит к значительному расхождению между тем, что показывает бенчмарк, и реальной работой системы. Исследования показывают, что даже высоко зарекомендовавшие себя модели, способные, например, читать медицинские изображения быстрее опытных радиологов, часто оказываются менее эффективными в реальных условиях. Медицинские решения принимаются многопрофильными командами, что вносит сложности в оценку производительности ИИ. В ответ на эти вызовы, некоторые исследователи, включа
Данные по AI-бенчмаркам неверны — нужны новые подходы
31 марта31 мар
1 мин