1. ИИ осваивает новые рубежи быстрее, чем когда-либо.
В 2023 году исследователи ИИ представили несколько сложных новых бенчмарков, включая MMMU, GPQA и SWE-bench, направленных на проверку пределов все более эффективных систем ИИ. К 2024 году производительность ИИ в этих бенчмарках значительно улучшилась, с приростом в 18,8 и 48,9 процентных пунктов по MMMU и GPQA соответственно. На SWE-bench системы ИИ смогли решить всего 4,4% проблем кодирования в 2023 году — этот показатель подскочил до 71,7% в 2024 году.
2. Модели открытого веса догоняют.
Прошлогодний индекс ИИ показал, что ведущие модели открытого веса значительно отстают от своих коллег закрытого веса. К 2024 году этот разрыв практически исчез. В начале января 2024 года ведущая модель закрытого веса превзошла лучшую модель открытого веса на 8,04% в рейтинге Chatbot Arena. К февралю 2025 года этот разрыв сократился до 1,70%.
3. Разрыв между китайской и американской моделями сокращается.
В 2023 году ведущие американские модели значительно превзошли своих китайских коллег — тенденция, которая больше не сохраняется. В конце 2023 года разрывы в производительности по таким бенчмаркам, как MMLU, MMMU, MATH и HumanEval, составляли 17,5, 13,5, 24,3 и 31,6 процентных пункта соответственно. К концу 2024 года эти различия существенно сократились до 0,3, 8,1, 1,6 и 3,7 процентных пункта.
4. Эффективность модели ИИ сходится на границе.
Согласно прошлогоднему индексу ИИ, разница в баллах Эло между топовой и 10-й моделью в рейтинге Chatbot Arena составила 11,9%. К началу 2025 года этот разрыв сократился до всего 5,4%. Аналогичным образом, разница между двумя топовыми моделями сократилась с 4,9% в 2023 году до всего 0,7% в 2024 году. Сфера ИИ становится все более конкурентной, и теперь высококачественные модели доступны от все большего числа разработчиков.
5. Новые парадигмы рассуждений, такие как вычисления во время тестирования, улучшают производительность модели.
В 2024 году OpenAI представила такие модели, как o1 и o3, которые разработаны для итеративного рассуждения по их выходным данным. Этот подход к вычислениям во время теста значительно повысил производительность: o1 набрал 74,4% на отборочном экзамене Международной математической олимпиады по сравнению с 9,3% GPT-4o. Однако это улучшенное рассуждение имеет свою цену: o1 почти в шесть раз дороже и в 30 раз медленнее, чем GPT-4o.
6. Постоянно предлагаются более сложные контрольные показатели.
Насыщенность традиционных тестов ИИ, таких как MMLU, GSM8K и HumanEval, в сочетании с улучшенной производительностью в новых, более сложных тестах, таких как MMMU и GPQA, подтолкнула исследователей к изучению дополнительных методов оценки ведущих систем ИИ. Среди них следует отметить Humanity's Last Exam, строгий академический тест, в котором лучшая система набирает всего 8,80%; FrontierMath, сложный математический тест, в котором системы ИИ решают только 2% задач; и BigCodeBench, тест кодирования, в котором системы ИИ достигают 35,5% успеха, что значительно ниже человеческого стандарта в 97%.
7. Высококачественные видеогенераторы на основе ИИ демонстрируют значительные улучшения.
В 2024 году было запущено несколько продвинутых моделей ИИ, способных генерировать высококачественные видео из текстовых входов. Среди известных релизов — SORA от OpenAI, Stable Video Diffusion 3D и 4D, Movie Gen от Meta и Veo 2 от Google DeepMind. Эти модели создавали видео значительно более высокого качества по сравнению с моделями 2023 года.
8. Меньшие по размеру модели обеспечивают более высокую производительность.
В 2022 году наименьшей моделью, набравшей более 60% баллов по MMLU, была PaLM с 540 миллиардами параметров. К 2024 году Phi-3-mini от Microsoft с всего лишь 3,8 миллиардами параметров достигла того же порога. Это означает 142-кратное снижение за два года.
9. Сложное рассуждение остаётся проблемой.
Несмотря на то, что добавление механизмов, таких как цепочка рассуждений, значительно улучшило производительность LLM, эти системы по-прежнему не могут надёжно решать проблемы, для которых доказуемо правильные решения могут быть найдены с использованием логических рассуждений, таких как арифметика и планирование, особенно в случаях, больших, чем те, на которых они были обучены. Это оказывает существенное влияние на надёжность этих систем и их пригодность в приложениях с высоким риском.
10. Агенты ИИ демонстрируют первые перспективы.
Запуск RE-Bench в 2024 году представил строгий критерий оценки сложных задач для агентов ИИ. В условиях короткого временного горизонта (двухчасовой бюджет) лучшие системы ИИ набирают в четыре раза больше баллов, чем эксперты-люди, но по мере увеличения бюджета времени производительность человека превосходит ИИ — превосходя его два к одному за 32 часа. Агенты ИИ уже соответствуют человеческим навыкам в некоторых задачах, таких как написание ядер Triton, при этом обеспечивая результаты быстрее и с меньшими затратами.
Ещё больше исследований на тему трендов и статистики по Искусственному интеллекта 2025 года читайте ваших статьях:
Искусственный интеллект 2025: Исследования и разработки - https://dzen.ru/a/aApZdMINgTm4mRFl
Искусственный интеллект 2025: Ответственность ИИ - https://dzen.ru/a/aApazWazfU27Ktyp
Искусственный интеллект 2025: Экономика - https://dzen.ru/a/aApbZtLLBmRzovVJ
Искусственный интеллект 2025: Наука и медицина - https://dzen.ru/a/aApcC99DmzM6_Wvu
Искусственный интеллект 2025: В политике и управление - https://dzen.ru/a/aApcjJV1pyEpmF51
Искусственный интеллект 2025: Образование - https://dzen.ru/a/aApc_J12FAAqSrQB
Искусственный интеллект 2025: Общественное мнение - https://dzen.ru/a/aApdYdZP_XeAZOMI
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
Почему стоит выбрать нас:
- Индивидуальный подход: мы создаем решения, адаптированные под уникальный дизайн вашего бизнеса.
- Высокое качество: наши разработки обеспечивают точность и надежность работы.
- Инновационные технологии: использовать передовые технологии и методы, чтобы предложить вам лучшее из мира ИИ.
- Экономия времени и ресурсов: автоматизация процессов и внедрение умных решений помогают снизить затраты и повысить производительность.
- Профессиональная поддержка: Наша команда экспертов всегда готова обеспечить качественную поддержку и консультации на всех этапах проекта.
В использовании искусственного интеллекта уже сегодня — будущее для вас!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru