Добавить в корзинуПозвонить
Найти в Дзене
Нейрозона сегодня

GPT-5.2: Резкое снижение галлюцинаций и обновление знаний

В анонсе GPT-5.2 разработчики сообщили о значительном снижении количества галлюцинаций в новой модели. Тестирование проводилось на запросах, имитирующих реальные диалоги в ChatGPT, а ответы оценивались отдельной моделью с доступом к интернету. Оценивались два показателя: доля неверных фактов во всех утверждениях ответа и доля ответов, содержащих хотя бы одну серьезную фактическую ошибку. Результаты показали, что GPT-5.2 Thinking с включенным поиском выдает всего 0,8% ошибочных утверждений, по сравнению с 1,5% у GPT-5.1 Thinking. Это почти двукратное снижение. Доля ответов с крупными ошибками также уменьшилась – с 8,8% до 5,8% (на треть). Во всех пяти тематических категориях, включая новости и текущие события, модель демонстрирует точность ниже 1%. Без использования поиска ситуация меняется: GPT-5.2 Thinking показывает 3,1% ошибочных утверждений и 10,9% ответов с серьезными ошибками. Улучшение по сравнению с GPT-5.1 есть, но оно незначительно – около 14%. Также улучшился показатель "kno

В анонсе GPT-5.2 разработчики сообщили о значительном снижении количества галлюцинаций в новой модели. Тестирование проводилось на запросах, имитирующих реальные диалоги в ChatGPT, а ответы оценивались отдельной моделью с доступом к интернету. Оценивались два показателя: доля неверных фактов во всех утверждениях ответа и доля ответов, содержащих хотя бы одну серьезную фактическую ошибку.

Результаты показали, что GPT-5.2 Thinking с включенным поиском выдает всего 0,8% ошибочных утверждений, по сравнению с 1,5% у GPT-5.1 Thinking. Это почти двукратное снижение. Доля ответов с крупными ошибками также уменьшилась – с 8,8% до 5,8% (на треть). Во всех пяти тематических категориях, включая новости и текущие события, модель демонстрирует точность ниже 1%.

Без использования поиска ситуация меняется: GPT-5.2 Thinking показывает 3,1% ошибочных утверждений и 10,9% ответов с серьезными ошибками. Улучшение по сравнению с GPT-5.1 есть, но оно незначительно – около 14%. Также улучшился показатель "knowlede cutoff" – дата, до которой модель обладает знаниями, теперь это 31 августа 2025 года (ранее было 1 октября 2024-го).

Сравнение с оригинальной GPT-5 Thinking показывает нелинейную динамику при включенном поиске: GPT-5 выдавала 1,1% ошибок, GPT-5.1 – 1,5%, и только GPT-5.2 достигла 0,8%. Без поиска улучшения последовательны, но замедляются: 4,7% у GPT-5, 3,2% у GPT-5.1 и 3,1% у GPT-5.2. Вывод очевиден: для получения актуальной информации всегда включайте поиск.

Ну что ж, теперь нейросети врут в три раза меньше, чем раньше. Почти как люди, только без чувства вины и необходимости спать.