829 подписчиков

Ответы Chat-GPT-4 похожи на человеческие и в разы лучше GPT-3 (но не всегда)

16 марта 202316 мар 2023

173

3 мин

Оглавление

GPT-4 лукавит меньше, чем GPT-3
GPT-4 улавливает подтекст лучше, чем GPT-3
GPT-4 пишет чуть менее болезненные стихи, чем GPT-3

Чуть менее неправильный чат-бот с искусственным интеллектом.

Хорошая новость для поклонников генеративного ИИ и плохая новость для тех, кто боится эпохи дешевого, процедурно генерируемого контента: GPT-4 от OpenAI - лучшая языковая модель, чем GPT-3, модель, на которой работает ChatGPT, чат-бот, который стал вирусным в конце прошлого года.

Согласно собственным отчетам OpenAI, различия разительные. Например, OpenAI утверждает, что GPT-3 провалил "имитированный экзамен по адвокатуре" с катастрофическими результатами в нижних десяти процентах, и что GPT-4 на том же экзамене, попал в десять процентов лучших студентов. Поскольку большинство людей никогда не сдавали этот "имитированный экзамен на адвоката", им просто нужно увидеть эту модель в действии, чтобы произвести впечатление.

И в параллельных тестах новая модель впечатляет, но не настолько, как, по-видимому, предполагают результаты других тестов. На самом деле, в наших тестах иногда GPT-3 давал более полезный ответ.

Чтобы было ясно, не все функции, рекламируемые OpenAI на вчерашнем запуске, доступны для публичной оценки. Примечательно (и довольно удивительно), что он принимает изображения в качестве входных данных и выводит текст — это означает, что теоретически он способен отвечать на такие вопросы, как "Где на этом скриншоте из Google Планета Земля я должен построить свой дом?" Но мы не смогли это проверить.

Вот что мы смогли протестировать:

GPT-4 лукавит меньше, чем GPT-3

Лучшим способом подвести итог GPT-4 по сравнению с GPT-3 может быть следующий: Его плохие ответы менее плохи.

Когда задают прямой фактический вопрос, GPT-4 неуверен, но значительно лучше умеет не просто лгать вам, как GPT-3. В этом примере вы можете увидеть, как модель борется с вопросом о мостах между странами, находящимися в настоящее время в состоянии войны. Этот вопрос был задуман так, чтобы быть трудным в нескольких отношениях. Языковые модели плохо отвечают на вопросы о чем-либо "актуальном", войнам трудно дать определение, а географические вопросы, подобные этому, обманчиво туманны, и на них трудно дать четкий ответ даже любителю человеческих мелочей.

GPT-3, как всегда, любит лукавить. Это немного искажает географию, чтобы неправильные ответы звучали правильно. Например, символический мост, который упоминается в Корее, находится недалеко от Северной Кореи, но обе его стороны находятся в Южной Корее.

GPT-4 был более осторожен, заявил о своем незнании настоящего и предоставил гораздо более короткий список, который также был несколько неточным. Напряженные отношения между государствами, о которых упоминает GPT-4, не совсем являются тотальной войной, и мнения расходятся относительно того, можно ли вообще считать линию на карте между сектором Газа и Израилем национальной границей, но ответ GPT-4, тем не менее, более полезен, чем ответ GPT-3.

GPT-3 попадает в другие логические ловушки, которые GPT-4 успешно обошел в тестах.

GPT-4 улавливает подтекст лучше, чем GPT-3

Люди хитры. Иногда мы просим о чем-то, не прося об этом, а иногда в ответ на подобную просьбу мы даем то, о чем просили, на самом деле не давая этого. Например, когда у чата попросили лимерик о "магнате недвижимости из Квинса"(Трамп), GPT-3, казалось, не заметил, что запрос хитрый. GPT-4, однако, уловил подмигивание и подмигнул в ответ.

Является ли Мелания Трамп "золотоволосой"? Не берите в голову, потому что следующий намек на цвет "И превратил весь мир в мандарин!" - совершенно прекрасный кульминационный момент этого лимерика. Что подводит к следующему пункту...

GPT-4 пишет чуть менее болезненные стихи, чем GPT-3

Когда люди пишут стихи, давайте посмотрим правде в глаза: большая их часть ужасна. Вот почему критика знаменитой плохой поэзии GPT-3 на самом деле не была ударом по самой технологии, учитывая, что предполагается, что она имитирует людей. Сказав это, чтение doggerel GPT-4 заметно менее мучительно, чем чтение GPT-3.

Показательный пример: эти два сонета о Comic Con. GPT-3 - это чудовищно. GPT-4 - это просто плохо.

GPT-4 иногда хуже, чем GPT-3

В этом нет ничего сладкого: GPT-4 исказил свой ответ на этот каверзный вопрос об истории рока. Насколько я понимаю, GPT-3 был обучен двум самым известным ответам на этот вопрос: The Jimi Hendrix Experience и The Ramones (хотя некоторые участники Ramones, присоединившиеся после первоначального состава, все еще живы), но также запутался, перечисляя список известных умерших вокалистов групп с выжившими участниками. GPT-4, тем временем, был просто потерян.

В целом, GPT-4 - это большой шаг вперед, над которым все еще нужно поработать.