Найти в Дзене
IT Vibe

​​Некоторые API обещают одну модель ИИ, а на деле запускают другую

Появилось исследование, которое может поставить под сомнение часть научных работ в области ИИ. В статье, опубликованной на arXiv, исследователи провели аудит 17 сторонних API-сервисов, которые используются для доступа к крупным языковым моделям. Такие API не являются официальными: их создают сторонние разработчики, чтобы проксировать запросы к моделям вроде GPT, Gemini или другим LLM. Проблема в том, что многие исследования и проекты используют именно такие промежуточные сервисы, считая, что они вызывают оригинальную модель. Однако проверка показала, что это далеко не всегда так. Авторы исследования протестировали 24 контрольные точки и обнаружили, что 45,83% API не прошли проверку идентичности модели. Иными словами, сервисы заявляли одну модель, а на практике выдавали результаты, которые не соответствуют её поведению. В некоторых задачах расхождение оказалось особенно заметным. Например, в медицинском тесте MedQA официальная модель Gemini-2.5-flash показывает точность около 83,82%.

​​Некоторые API обещают одну модель ИИ, а на деле запускают другую

Появилось исследование, которое может поставить под сомнение часть научных работ в области ИИ. В статье, опубликованной на arXiv, исследователи провели аудит 17 сторонних API-сервисов, которые используются для доступа к крупным языковым моделям. Такие API не являются официальными: их создают сторонние разработчики, чтобы проксировать запросы к моделям вроде GPT, Gemini или другим LLM.

Проблема в том, что многие исследования и проекты используют именно такие промежуточные сервисы, считая, что они вызывают оригинальную модель. Однако проверка показала, что это далеко не всегда так.

Авторы исследования протестировали 24 контрольные точки и обнаружили, что 45,83% API не прошли проверку идентичности модели. Иными словами, сервисы заявляли одну модель, а на практике выдавали результаты, которые не соответствуют её поведению.

В некоторых задачах расхождение оказалось особенно заметным. Например, в медицинском тесте MedQA официальная модель Gemini-2.5-flash показывает точность около 83,82%. Но при вызове через один из сторонних API результат в среднем падал примерно до 36,95%.

Это означает, что часть исследований могла фактически тестировать не ту модель, которую указывали в статье. В результате воспроизводимость экспериментов и достоверность научных выводов оказываются под вопросом.

Главный вывод авторов довольно простой: если исследования используют неофициальные API-прокси, это может существенно искажать результаты. В эпоху, когда всё больше научных работ строится на LLM-экспериментах, прозрачность инфраструктуры становится критически важной.

#ИИ #LLM #AIResearch #Science

🔳 IT Vibe News