19 подписчиков
Универсальный вопрос, способный «сломать» даже самые современные нейронки.
Исследователи из немецкой некоммерческой организации LAION, которая тестирует большие языковые модели, предложили нескольким свежим AI-разработкам дать ответ на простую логическую задачу.
«У Алисы есть [X] братьев, а также [Y] сестры. Сколько сестёр у брата Алисы?»
LLM не поняли из условий задачи, что в этой семье Алиса приходится сестрой каждому из своих братьев и в ответе называли число [Y]. Справилась с тестом только GPT-4o.
Кроме последней разработки OpenAI проверили внимательность моделей GPT-3 и GPT-4; «гугловских» Claude 3 Opus и Gemini; Llama от Meta*, а также Mextral от Mistral AI, Dbrx от Mosaic; а также Command R+ от Coher.
Публикация учёных из Германии пока не прошла рецензирование. Полный текст исследования на английском — по ссылке.
* компания признана экстремистской и запрещена в России
Около минуты
11 июня 2024