Подразделение Google под названием DeepMind представило ИИ-инструмент Search-Augmented Factuality Evaluator (SAFE). Он создан для проверки достоверности ответов больших языковых моделей. Новинку уже сравнили с людьми по способности проверки фактов.
В своей работы SAFE использует большие языковые модели для разбиения проверяемого текста на отдельные факты, а затем определяет их достоверность с использованием «многоступенчатого» процесса аргументации. Для проверки разработки Google исследователи Корнуэльского университета с помощью GPT-4 собрали набор из множества запросов по 38 темам, а затем проверили, кто лучше отделит правду от вымысла в них: человек или SAFE.
Как оказалось, в наборе из 16 000 фактов в 72% случаев результат проверки SAFE совпадал с человеческим, но в случайном подмножестве из 100 случаев расхождения мнений в оставшихся 28% ответов SAFE оказалась права в 76% проверок. То есть человек обходил SAFE в способности проверки фактов только в 24% случаев.