GPT-4 способен совершенствоваться сам, если просто внимательно посмотрит на себя. Исследователи попросили GPT подвергнуть критике свою собственную работу, и точность ответов повысилась на 30%.
"Не каждый день люди разрабатывают новые методы для достижения самых современных стандартов, используя процессы принятия решений, которые когда-то считались уникальными для человеческого интеллекта, - пишут исследователи Ноа Шинн и Эшвин Гопинатх. - Но это именно то, что мы сделали".
Техника улучшения результатов ChatGPT
Техника "Рефлексии" использует и без того впечатляющую способность GPT-4 выполнять различные тесты и представляет "структуру, которая позволяет алгоритмам ИИ имитировать саморефлексию, подобную человеческой, и оценивать ее производительность". Эта техника заключается во введении дополнительных шагов, в ходе которых GPT-4 разрабатывает тесты для критического анализа своих собственных ответов, ищет ошибки и оплошности, а затем переписывает свои решения на основе того, что он понял.
Команда использовала свою технику в нескольких различных тестах производительности. В тесте HumanEval, который состоит из 164 задач программирования на Python, которые модель никогда не видела, GPT-4 набрал рекордные 67%, но с использованием техники рефлексии его оценка подскочила до очень впечатляющих 88%.
В тесте Alfworld, который проверяет способность ИИ принимать решения и решать многоэтапные задачи, выполняя несколько различных допустимых действий в различных интерактивных средах, техника рефлексии повысила производительность GPT-4 примерно с 73% до почти идеальных 97%, потерпев неудачу только в 4 из 134 задач.
В другом тесте под названием HotPotQA языковой модели был предоставлен доступ к Википедии, а затем 100 из возможных 13 000 пар вопросов / ответов, которые "заставляют агентов анализировать содержимое и аргументировать несколько подтверждающих документов". В этом тесте GPT-4 набрал всего 34% точности, но с техникой саморефлексии он смог показать значительно лучшие результаты - 54%.