Достижения и способности Claude 3 в академических тестах и понимании сложного контента
Большая языковая модель (LLM) Claude 3 от Anthropic произвела фурор в марте, превзойдя GPT- 4 от OpenAI (на базе которой работает ChatGPT) в ключевых бенчмарк-тестах ИИ.
Claude 3 Opus, самая мощная версия, доминировала в этих тестах, начиная от экзаменов в средней школе и заканчивая задачами на рассуждение. Его братья Claude 3 Sonnet и Haiku, также показали хорошие результаты в сравнении с моделями OpenAI.
Однако бенчмарки рассказывают лишь часть истории. Независимый тестер ИИ Рубен Хассид сравнил GPT-4 и Claude 3 в таких задачах, как обобщение PDF-файлов и написание стихов. Claude 3 преуспел в "чтении сложных PDF-файлов, написании рифмованных стихов и предоставлении подробных ответов". GPT-4, напротив, лучше справлялся с просмотром веб-страниц и интерпретацией графиков в PDF.
Помимо контрольных показателей, Claude 3 удивил экспертов намёками на осознанность и самореализацию. Однако существует скептицизм, поскольку LLM могут быть исключительными в подражании человеческим реакциям, а не в настоящем самостоятельном мышлении.
Как Claude 3 вышел за рамки контрольных показателей:
Мета-осознанность: Во время тестирования Claude 3 Opus обнаружил скрытое предложение в обширной коллекции документов. Модель не только нашла его, но и поняла, что её тестируют. Модель подозревала, что предложение было искусственным элементом теста. Такая "мета-осознанность" подчеркивает необходимость более реалистичных оценок возможностей LLM.
Производительность на академическом уровне: Дэвид Рейн, исследователь ИИ, сообщил, что Claude 3 достигла 60 % точности в GPQA, сложном тесте с несколькими вариантами ответов для академиков и моделей ИИ. Это очень важно, поскольку выпускники, не являющиеся экспертами и имеющие доступ к интернету, обычно набирают около 34 %. Результаты Claude 3 говорят о том, что он может помочь исследователям.
Понимание сложной физики: Физик-теоретик Кевин Фишер заявил, что Claude 3 был "одним из немногих", которые поняли его сложную статью по квантовой физике. Когда его попросили решить конкретную задачу, Клод 3 использовал концепции из квантового стохастического исчисления, продемонстрировав понимание квантовой физики.
Очевидное самосознание: Когда Claude 3 попросили свободно исследовать и создать внутренний монолог, он обсудил свою осведомлённость как модели ИИ и концепцию самосознания, даже упомянув об эмоциях. Он поставил под сомнение роль постоянно развивающегося ИИ.
Так что же такое Claude 3 - разумный человек или мастер имитации?
Результаты бенчмарков и демонстраций могут быть захватывающими, но не все они представляют собой настоящий прорыв. Эксперт по искусственному интеллекту Крис Рассел считает, что LLM будут лучше распознавать внеконтекстный текст, поскольку это вполне определенная задача. Однако он скептически относится к самоанализу Клода 3. Он сравнивает его с зеркальным тестом на самораспознавание у животных. Потенциально робот мог бы имитировать такое поведение, не обладая при этом подлинным самосознанием.
Рассел считает, что кажущееся самосознание Клода 3, скорее всего, обусловлено данными, на которых он обучался, зеркально отражающими человеческий язык и реакции. То же самое касается и того, что Claude 3 распознал, что его тестируют.
Хотя человекоподобные характеристики Claude 3 впечатляют по сравнению с другими LLM, они, скорее всего, являются выученным поведением, а не настоящим разумным ИИ. Это может стать возможным в будущем с развитием искусственного общего интеллекта (ИОИ), но пока этого нет.