Универсальный вопрос, способный «сломать» даже самые современные нейронки.

Исследователи из немецкой некоммерческой организации LAION, которая тестирует большие языковые модели, предложили нескольким свежим AI-разработкам дать ответ на простую логическую задачу.

«У Алисы есть [X] братьев, а также [Y] сестры. Сколько сестёр у брата Алисы?»

LLM не поняли из условий задачи, что в этой семье Алиса приходится сестрой каждому из своих братьев и в ответе называли число [Y]. Справилась с тестом только GPT-4o.

Кроме последней разработки OpenAI проверили внимательность моделей GPT-3 и GPT-4; «гугловских» Claude 3 Opus и Gemini; Llama от Meta*, а также Mextral от Mistral AI, Dbrx от Mosaic; а также Command R+ от Coher.

Публикация учёных из Германии пока не прошла рецензирование. Полный текст исследования на английском — по ссылке.

* компания признана экстремистской и запрещена в России

Универсальный вопрос, способный «сломать» даже самые современные нейронки.

Около минуты

11 июня 2024