Найти в Дзене

Когда искусственный интеллект пройдет этот тест, берегитесь!

Если вы ищете новую причину для беспокойства по поводу искусственного интеллекта, попробуйте это: Некоторые из самых умных людей в мире пытаются создать тесты, которые системы искусственного интеллекта не смогут пройти. В течение многих лет системы искусственного интеллекта оценивались путем проведения различных стандартных эталонных тестов для новых моделей. Многие из этих тестов состояли из сложных задач уровня S.A.T. в таких областях, как математика, естественные науки и логика. Сравнение результатов, полученных моделями за определенное время, служило приблизительным показателем прогресса А.И. Но в конце концов системы A.I. стали слишком хорошо справляться с этими тестами, поэтому были созданы новые, более сложные тесты - часто с вопросами, которые могут встретиться на экзаменах студентам-выпускникам. Эти тесты тоже не в лучшей форме. Новые модели от таких компаний, как OpenAI, Google и Anthropic, получают высокие баллы во многих задачах уровня докторской диссертации, что ограничива
Оглавление

Создатели нового теста под названием «Последний экзамен человечества» утверждают, что вскоре мы можем потерять способность создавать достаточно сложные тесты для моделей искусственного интеллекта.

Если вы ищете новую причину для беспокойства по поводу искусственного интеллекта, попробуйте это: Некоторые из самых умных людей в мире пытаются создать тесты, которые системы искусственного интеллекта не смогут пройти.

В течение многих лет системы искусственного интеллекта оценивались путем проведения различных стандартных эталонных тестов для новых моделей. Многие из этих тестов состояли из сложных задач уровня S.A.T. в таких областях, как математика, естественные науки и логика. Сравнение результатов, полученных моделями за определенное время, служило приблизительным показателем прогресса А.И.

Но в конце концов системы A.I. стали слишком хорошо справляться с этими тестами, поэтому были созданы новые, более сложные тесты - часто с вопросами, которые могут встретиться на экзаменах студентам-выпускникам.

Эти тесты тоже не в лучшей форме. Новые модели от таких компаний, как OpenAI, Google и Anthropic, получают высокие баллы во многих задачах уровня докторской диссертации, что ограничивает полезность этих тестов и заставляет задуматься: Не становятся ли системы искусственного интеллекта слишком умными, чтобы мы могли их измерить?

На этой неделе исследователи из Центра безопасности ИИ и Scale AI опубликовали возможный ответ на этот вопрос: Новая оценка под названием «Последний экзамен человечества», которая, по их словам, является самым сложным тестом, когда-либо проводившимся для систем искусственного интеллекта.

Humanity's Last Exam - детище Дэна Хендрикса, известного исследователя безопасности ИИ и директора Центра безопасности ИИ. (Первоначальное название теста - «Последний экзамен человечества» - было отменено за излишнюю драматичность).

Г-н Хендрикс работал с компанией Scale AI, в которой он является советником, над составлением теста, состоящего примерно из 3 000 вопросов с несколькими вариантами ответов, призванных проверить способности систем искусственного интеллекта в самых разных областях - от аналитической философии до ракетостроения.

Вопросы были предоставлены экспертами в этих областях, включая профессоров колледжей и лауреатов математических премий, которым было предложено придумать чрезвычайно сложные вопросы, ответы на которые они знали.

Попробуйте ответить на вопросы теста по анатомии колибри:

У колибри, относящихся к отряду Apodiformes, имеется двусторонняя парная овальная кость - сесамоид, встроенный в каудолатеральную часть расширенного крестообразного апоневроза вставки m. depressor caudae. Сколько парных сухожилий поддерживается этой сесамовидной костью? Ответьте цифрой.

Или, если вам больше по душе физика, попробуйте решить эту задачу:

На горизонтальном рельсе, по которому он может скользить без трения, лежит блок. Он прикреплен к концу жесткого безмассового стержня длиной R. На другом конце прикреплена масса. Оба объекта имеют массу W. Первоначально система неподвижна, масса находится непосредственно над блоком. Массе придают бесконечно малый толчок, параллельный рельсу. Предположим, что система спроектирована таким образом, что стержень может вращаться на 360 градусов без остановки. Когда стержень находится в горизонтальном положении, на него действует напряжение T1. Когда стержень снова вертикален, а его масса находится непосредственно под блоком, он испытывает натяжение T2. (Обе эти величины могут быть отрицательными, что указывает на то, что стержень находится в состоянии сжатия). Каково значение (T1-T2)/W?

(Я бы напечатал ответы здесь, но это испортит тест для любых систем A.I., обучающихся на этой колонке. Кроме того, я слишком туп, чтобы проверить ответы самостоятельно).