Найти в Дзене

Новые модели OpenAI выдают больше ошибок

Новые модели OpenAI выдают больше ошибок OpenAI представила новые модели o3 и o4-mini, которые превосходят предыдущие версии в ряде задач (например, в программировании и математике). Однако они чаще выдают ложную информацию, что странно, так как обычно с каждым новым поколением ИИ число ошибок снижалось. В техническом отчёте OpenAI признаёт, что не понимает, почему улучшенные логические модели "фантазируют" чаще предшественников. Компания отмечает, что они делают больше утверждений в целом — как верных, так и ошибочных. Согласно внутренним тестам OpenAI, o3 ошибается в 33% случаев в тесте PersonQA (проверка знаний о людях), что почти вдвое хуже, чем у o1 (16%) и o3-mini (14,8%). У O4-mini результат и того печальнее — 48% ложных ответов. Независимая лаборатория Transluce обнаружила, что o3 выдумывает действия, например, утверждает, что запускал код на MacBook Pro, хотя технически это невозможно. Несмотря на преимущества перед конкурентами в программировании, o3 часто генерирует не

Новые модели OpenAI выдают больше ошибок

OpenAI представила новые модели o3 и o4-mini, которые превосходят предыдущие версии в ряде задач (например, в программировании и математике).

Однако они чаще выдают ложную информацию, что странно, так как обычно с каждым новым поколением ИИ число ошибок снижалось.

В техническом отчёте OpenAI признаёт, что не понимает, почему улучшенные логические модели "фантазируют" чаще предшественников. Компания отмечает, что они делают больше утверждений в целом — как верных, так и ошибочных.

Согласно внутренним тестам OpenAI, o3 ошибается в 33% случаев в тесте PersonQA (проверка знаний о людях), что почти вдвое хуже, чем у o1 (16%) и o3-mini (14,8%).

У O4-mini результат и того печальнее — 48% ложных ответов.

Независимая лаборатория Transluce обнаружила, что o3 выдумывает действия, например, утверждает, что запускал код на MacBook Pro, хотя технически это невозможно.

Несмотря на преимущества перед конкурентами в программировании, o3 часто генерирует неработающие ссылки. Для компаний, где важна точность, например в юридической сфере, это недопустимо (достаточно вспомнить случай с адвокатами, которым ChatGPT процитировал несуществующие судебные дела).

"Фантазии" ИИ могут пригодиться для креативных задач, но и то не всегда.

Один из способов снизить ошибки — интегрировать веб-поиск. Например, GPT-4o с поиском достигает 90% точности в тесте SimpleQA. Но это требует передачи запросов третьим сторонам, что не всегда приемлемо.

OpenAI продолжает исследования и ищет решение сложившейся ситуации.

ИИ — полезный инструмент, но слепо доверять ему нельзя. Всегда проверяйте полученные данные.

Источник: techcrunch.com

👍 Капиталистический Ватник. Подписаться