Появилось исследование, которое может поставить под сомнение часть научных работ в области ИИ. В статье, опубликованной на arXiv, исследователи провели аудит 17 сторонних API-сервисов, которые используются для доступа к крупным языковым моделям. Такие API не являются официальными: их создают сторонние разработчики, чтобы проксировать запросы к моделям вроде GPT, Gemini или другим LLM. Проблема в том, что многие исследования и проекты используют именно такие промежуточные сервисы, считая, что они вызывают оригинальную модель. Однако проверка показала, что это далеко не всегда так. Авторы исследования протестировали 24 контрольные точки и обнаружили, что 45,83% API не прошли проверку идентичности модели. Иными словами, сервисы заявляли одну модель, а на практике выдавали результаты, которые не соответствуют её поведению. В некоторых задачах расхождение оказалось особенно заметным. Например, в медицинском тесте MedQA официальная модель Gemini-2.5-flash показывает точность около 83,82%.