23,9 тыс подписчиков

Новый инструмент с открытым кодом измеряет "уровень глупости" ИИ-моделей

19 сентября 202519 сен 2025

1 мин

Разработан новый инструмент с открытым исходным кодом для мониторинга различных моделей ИИ в реальном времени, включая OpenAI GPT-5, Claude Opus 4 и Gemini 2.5 Pro. Этот первый в своем роде сервис способен обнаруживать случаи, когда компании снижают возможности моделей для экономии затрат. Тесты можно запускать, используя собственные API-ключи OpenAI, xAI, Anthropic или Google. Пользователи, работающие с моделями ИИ для различных задач, особенно программирования, замечают, что эти инструменты часто работают нестабильно. В некоторых случаях они просто не дают ответов, иногда выдают ошибочный код, а когда предоставляют ожидаемый результат, делают это медленнее обычного. Именно здесь на помощь приходит AI Benchmark Tool, расположенный по адресу AistupidLevel.info, предоставляя информацию о производительности и точности нескольких моделей ИИ в реальном времени, включая данные о стоимости. Инструмент выполняет более 140 задач по кодингу, отладке и оптимизации на всех крупных моделях. На дан

Оглавление

Google уволила 200 ИИ-подрядчиков на фоне жалоб о низкой оплате труда
OpenAI рассказала, как и для чего пользователи применяют ChatGPT

Пользователи, работающие с моделями ИИ для различных задач, особенно программирования, замечают, что эти инструменты часто работают нестабильно. В некоторых случаях они просто не дают ответов, иногда выдают ошибочный код, а когда предоставляют ожидаемый результат, делают это медленнее обычного. Именно здесь на помощь приходит AI Benchmark Tool, расположенный по адресу AistupidLevel.info, предоставляя информацию о производительности и точности нескольких моделей ИИ в реальном времени, включая данные о стоимости.

Инструмент выполняет более 140 задач по кодингу, отладке и оптимизации на всех крупных моделях. На данный момент отслеживаются OpenAI GPT, Claude и Gemini. В скором времени добавят и Grok.

Основные особенности:

Информация о ценах в реальном времени. Некоторые модели, кажущиеся дешевыми, требуют 10 итераций для выполнения задачи, в то время как другие, более дорогие на первый взгляд, справляются с той же задачей за 2 итерации, что в итоге обходится дешевле
Возможность запускать те же тесты с собственными API-ключами пользователя
Мониторинг производительности ИИ в реальном времени, включая рейтинги моделей на основе "глупости" и "умности"
Умные рекомендации на основе комбинированных показателей производительности
Уведомления об активных деградациях – например, Gemini-2.5-Flash сейчас демонстрирует снижение производительности на 44% по сравнению с базовым значением

Сейчас рекомендации таковы: Gemini-2.5-Flash-Lite для кода, Claude-3.5-Sonnet-20241022 для надежности и Gemini-2.5-Flash-Lite для скорости.

Google уволила 200 ИИ-подрядчиков на фоне жалоб о низкой оплате труда

OpenAI рассказала, как и для чего пользователи применяют ChatGPT

Весь проект имеет открытый исходный код на GitHub (репозитории API и фронтенда), и любой желающий может внести свой вклад в его развитие.

Комментарии на сайте

Гаджеты и электроника

5,73 млн интересуются