Технологические компании активно разрабатывают всё более мощные инструменты искусственного интеллекта (ИИ), демонстрируя их эффективность с помощью тестов, известных как AI benchmarks. Однако эксперты утверждают, что они не отражают реальные возможности ИИ.
Например, генеральный директор Google заявил, что новая модель Gemini набрала 90% на тесте Massive Multitask Language Understanding (MMLU), а глава Meta* Марк Цукерберг — что их модель Llama достигла 82% на том же тесте.
Проблема в том, что эти тесты не показывают, на какие вопросы ИИ может надежно ответить, и когда его можно безопасно использовать вместо обращения к экспертам-людям. По словам Мартина Сапа, доцента Университета Карнеги-Меллона, тесты не отражают реальных возможностей ИИ и могут вводить в заблуждение, особенно в областях, связанных с высокими рисками, таких как здравоохранение и право.
Эксперты утверждают, что многие из используемых тестов низкого качества и были созданы для оценки более простых систем. Это может привести к неправильным выводам о возможностях современных ИИ моделей, таких как Gemini и Llama.
Несмотря на это, компании продолжают использовать такие тесты для демонстрации своих достижений, что, в свою очередь, рождает мифы о сверхвозможностях ИИ и их дальнейшем развитии.
* Запрещенная в России организация
Читайте также:
Экстремальная турбулентность: как изменения климата повысили опасность авиаперелетов
Отпуск мечты на Марсе: астронавты рассказали, как проходила симуляция
Японская компания анонсировала проект марсианского космического лифта
Ссылка на статью: https://newkhakasiya.online/news/2024-07-24/testy-dlya-otsenki-intellekta-ii-nazvali-bessmyslennymi-5147789