Добавить в корзинуПозвонить
Найти в Дзене
Нейрозона сегодня

ИИ сдал экзамен CFA: Gemini 3.0 Pro показал рекорд!

Новое исследование показывает, что современные модели логического мышления способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне. Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля. В 2023 году ведущие языковые модели уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. GPT-4 смог пройти уровень I, но не справился с уровнем II. GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня. Новое исследование, проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результ

Новое исследование показывает, что современные модели логического мышления способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне.

Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля.

В 2023 году ведущие языковые модели уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. GPT-4 смог пройти уровень I, но не справился с уровнем II. GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня.

Новое исследование, проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результатами.

Исследователи протестировали шесть моделей логического мышления, ответив на 980 экзаменационных вопросов. Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни на основе установленных критериев.

Gemini и GPT-5 лидируют в этом списке.

Gemini 3.0 Pro показал рекордный результат в 97,6% на первом уровне. За ним следует GPT-5 с результатом 96,1%, а Gemini 2.5 Pro - 95,7%. Даже самая слабая из протестированных моделей, DeepSeek-V3.1, набрала 90,9%.

GPT-5 заняла лидирующую позицию на втором уровне, набрав 94,3 процента. Gemini 3.0 Pro достигла 93,2 процента, а Gemini 2.5 Pro - 92,6 процента. Исследователи отметили, что модели показали здесь «почти идеальные результаты».

На третьем уровне Gemini 2.5 Pro показал лучшие результаты в вопросах с множественным выбором, набрав 86,4%. Gemini 3.0 Pro превзошел конкурентов в вопросах с развернутым ответом, набрав 92,0%.

Уровень

Лучшая модель

Результат

Уровень I (тест с множественным выбором)

Gemini 3.0 Pro

97,6%

Уровень II (тест с множественным выбором)

ГПТ-5

94,3%

Уровень III (тест с множественным выбором)

Gemini 2.5 Pro

86,4%

Уровень III (ответы в развернутой форме)

Gemini 3.0 Pro

92,0%

Общий рейтинг

Gemini 3.0 Pro

1-е место

В исследовании использованы пробные экзамены CFA. Для уровней I и II использовались официальные материалы, а для уровня III - пробные экзамены сторонних организаций.

Модель o4-mini автоматизировала оценку открытых ответов, что может приводить к ошибкам. Следовательно, результаты служат приближенными оценками.

Проходные баллы были определены на основе предыдущих исследований.

Исследователи утверждают, что результаты свидетельствуют о том, что модели рассуждений превосходят уровень знаний, требуемый от финансовых аналитиков начального и среднего уровня, и в будущем могут достичь уровня финансовых аналитиков высшего звена.

Следует помнить, что прохождение теста не означает способность модели справляться с повседневной работой финансового аналитика.

В исследовании также отмечается, что модели по-прежнему испытывают наибольшие трудности с этическими вопросами.

Исследователи не могут исключить загрязнение данных. Это означает, что существует вероятность того, что модели просто знали ответы, а не анализировали их.

Тем не менее, скачок от неудачного к почти идеальному всего за два года подчеркивает стремительное развитие ИИ в специализированных областях. Для финансового сектора вопрос уже не в том, может ли ИИ освоить материал, а в том, как интегрировать эти знания в реальные рабочие процессы.

Итак, ИИ теперь может сдать экзамен CFA. Что дальше? Будет ли он платить налоги? Заботиться о котиках? Вопросы, вопросы…