Новые модели OpenAI выдают больше ошибок OpenAI представила новые модели o3 и o4-mini, которые превосходят предыдущие версии в ряде задач (например, в программировании и математике). Однако они чаще выдают ложную информацию, что странно, так как обычно с каждым новым поколением ИИ число ошибок снижалось. В техническом отчёте OpenAI признаёт, что не понимает, почему улучшенные логические модели "фантазируют" чаще предшественников. Компания отмечает, что они делают больше утверждений в целом — как верных, так и ошибочных. Согласно внутренним тестам OpenAI, o3 ошибается в 33% случаев в тесте PersonQA (проверка знаний о людях), что почти вдвое хуже, чем у o1 (16%) и o3-mini (14,8%). У O4-mini результат и того печальнее — 48% ложных ответов. Независимая лаборатория Transluce обнаружила, что o3 выдумывает действия, например, утверждает, что запускал код на MacBook Pro, хотя технически это невозможно. Несмотря на преимущества перед конкурентами в программировании, o3 часто генерирует не