104 подписчика

Данные по AI-бенчмаркам неверны — нужны новые подходы

31 марта31 мар

1 мин

Существующие методы оценки искусственного интеллекта (ИИ) устарели — они не соответствуют реальным условиям использования технологий. Эта проблема остается актуальной для разработки и развертывания ИИ в бизнесе и других сферах. На протяжении десятилетий ИИ оценивался по тому, насколько машины могут превзойти людей в выполнении конкретных задач, таких как шахматы, математика или написание эссе. Как показывает практика, большинство ИИ используется не в изолированных условиях, а в сложных организационных процессах. Это приводит к значительному расхождению между тем, что показывает бенчмарк, и реальной работой системы. Исследования показывают, что даже высоко зарекомендовавшие себя модели, способные, например, читать медицинские изображения быстрее опытных радиологов, часто оказываются менее эффективными в реальных условиях. Медицинские решения принимаются многопрофильными командами, что вносит сложности в оценку производительности ИИ. В ответ на эти вызовы, некоторые исследователи, включа

Оглавление

Почему старые методы не работают
Предложение нового подхода к оценке
Как это касается бизнеса в России и СНГ

Почему старые методы не работают

На протяжении десятилетий ИИ оценивался по тому, насколько машины могут превзойти людей в выполнении конкретных задач, таких как шахматы, математика или написание эссе. Как показывает практика, большинство ИИ используется не в изолированных условиях, а в сложных организационных процессах. Это приводит к значительному расхождению между тем, что показывает бенчмарк, и реальной работой системы.

Исследования показывают, что даже высоко зарекомендовавшие себя модели, способные, например, читать медицинские изображения быстрее опытных радиологов, часто оказываются менее эффективными в реальных условиях. Медицинские решения принимаются многопрофильными командами, что вносит сложности в оценку производительности ИИ.

Предложение нового подхода к оценке

В ответ на эти вызовы, некоторые исследователи, включая автора статьи, предложили новые подходы к бенчмаркингу — так называемые HAIC-бенчмарки, которые акцентируют внимание на человеческом взаимодействии и контексте использования ИИ. Такой подход поможет лучше учитывать, как ИИ встраивается в организационные процессы и влияет на результаты работы команд.

Фактически, важно оценивать ИИ не только с точки зрения отдельных задач, но и через призму командной работы, длительности использования и специфических условий, в которых происходят взаимодействия.

Как это касается бизнеса в России и СНГ

Для компаний в России и СНГ переход на новые методы оценки ИИ может стать важным шагом в повышении результативности и снижении риска при внедрении технологий. Важно учесть, что большинство ИИ-моделей могут показывать отличные результаты на тестах, но их реальная полезность может быть далеко не столь высокой без учета специфики работы в конкретных отраслях и организаций.

Следующий этап — это активизация исследований и внедрение HAIC-методов для создания универсальных систем оценки, которые действительно отразят реальную производительность ИИ в динамичных условиях рынка.

The post Данные по AI-бенчмаркам неверны — нужны новые подходы appeared first on iTech News.