В мире искусственного интеллекта постоянно происходят изменения, и каждый новый прорыв становится поводом для обсуждения. Одним из таких знаковых событий стало появление ERNIE 5.0 от Baidu — крупнейшей китайской интернет-компании, известной также как "китайский Google".
Текст, изображения, аудио и видео: в ERNIE 5.0 доступна работа со всем и сразу — это мультимодальная модель, обладающая 2,4 триллионами параметров. Она способна работать с текстом, изображениями, аудио и видео в рамках единой архитектуры. Это означает, что в отличие от многих других моделей, которые обучаются на отдельных типах данных (например, текст или изображения), ERNIE 5.0 обучается на всех этих форматах одновременно. Такой подход позволяет модели лучше понимать контекст и взаимосвязи между различными типами данных.
По данным бенчмарков, проведенных Baidu, ERNIE 5.0 демонстрирует результаты, сопоставимые с GPT-5 (High) и Gemini-3-Pro. Например, на ChartQA ERNIE 5.0 показывает результат ~92, что выше, чем у GPT-5. На OCRBench модель также набирает ~95 баллов, свидетельствуя о высокой точности в распознавании текста на изображениях.
Однако, если говорить о понимании документов и графиков, ERNIE 5.0 стабильно опережает GPT-5 High. Это особенно важно для бизнес-приложений, где точность и скорость обработки больших объемов информации играют решающую роль.
Однако есть область, где ERNIE 5.0 уступает — кодинг. В области программирования ситуация обратная. На LiveCodeBench GPT-5 набирает ~95 баллов, в то время как ERNIE 5.0 — ~80. Это показывает, что, хотя ERNIE 5.0 и является мощной моделью, она все еще может уступать в некоторых специализированных задачах.
Аудио: главный козырь ERNIE 5.0. Где ERNIE 5.0 действительно блистает, так это в работе с аудио. На бенчмарке MMAU (понимание звуковых сцен) модель набирает 80 баллов против ~70 у GPT-4o-Audio. На CochlScene разрыв еще больше: 80 против ~35. Это означает, что ERNIE 5.0 не только лучше понимает аудио, но и может более точно распознавать речь, демонстрируя меньший коэффициент ошибок по сравнению с конкурентами.
Эффективность и доступность
ERNIE 5.0 построена на архитектуре Mixture-of-Experts, что позволяет использовать менее 3% от 2,4 триллионов параметров при генерации ответа. Это значительно снижает вычислительные затраты, делая модель более эффективной и доступной.
Кроме того, ERNIE 5.0 доступна бесплатно через чат-бот ERNIE Bot. Также модель можно использовать через API платформы Qianfan — 0,85 за1 миллион входных токенов.
ERNIE 5.0 — это очередная крупная китайская модель, которая выходит на уровень западных лидеров в области искусственного интеллекта. С бесплатным доступом через чат-бот и доступной ценой через API, ERNIE 5.0 может стать важным игроком на рынке нейросетей, предлагая мощные и эффективные решения для различных задач.
Рекомендую к прочтению:
Делитесь своим мнением, ставьте лайки, подписывайтесь на канал Герои Истории – разнообразный историко-информационный канал на Дзен. Вы найдёте, что у нас почитать.