📰 Mistral OCR 4: Европейский AI-суверенитет для корпоративного распознавания документов — разбор главной новости июня 2026

СегодняСегодня

2 мин

Забудьте всё, что вы знали об OCR. Серьезно, просто выкиньте это из головы. Mistral AI, эти ребята из Европы, которые так хотят показать, что "сделано в ЕС" — это не только сыр и вино, но и крутой ИИ, только что выкатили свой OCR 4. И это не просто очередной шажок вперед, это прыжок через пропасть. Если раньше оптическое распознавание символов было похоже на попытку прочитать книгу, разбросав страницы по комнате, то теперь Mistral предлагает вам готовую, структурированную карту всего здания. Mistral AI во вторник представила OCR 4 — модель для анализа документов, которая выходит за рамки простого извлечения текста, предоставляя структурированное представление целых документов. Это включает в себя информацию о границах блоков, классификацию типов блоков и оценки уверенности для каждого слова. Этот релиз знаменует собой четвертое поколение технологии оптического распознавания символов от Mistral всего за 15 месяцев. И всё это происходит в тот момент, когда стремление компании к европейск

Модель поддерживает 170 языков, сгруппированных по 10 языковым группам, принимает файлы в форматах PDF, DOC, PPT и OpenDocument. Что особенно круто, её можно развернуть в виде одного контейнера на собственной инфраструктуре организации. Mistral позиционирует эту возможность как решение для компаний из регулируемых отраслей, которые не могут направлять конфиденциальные документы через облачные API, подпадающие под юрисдикцию США.

"Mistral OCR 4 извлекает и структурирует контент из широкого спектра документов", — говорится в заявлении компании. "Если предыдущие версии фокусировались на преобразовании страницы в чистый текст и таблицы, то OCR 4 возвращает структурированное представление документа".

Модель уже доступна через API Mistral, Document AI в Mistral Studio, Amazon SageMaker и Microsoft Foundry. Поддержка Snowflake Parse Document ожидается в скором времени. Стоимость начинается от 4 долларов за 1000 страниц, а при использовании пакетного API цена снижается до 2 долларов за 1000 страниц.

OCR 4 рассматривает каждый документ как семантическую карту, а не стену текста.

Ключевое инженерное изменение в OCR 4 — это структурный подход. Вместо того чтобы выдавать плоский поток извлеченного текста, как это было в OCR десятилетиями, модель возвращает многоуровневое представление. В нем каждый блок имеет локализацию с помощью ограничивающей рамки (bounding box), классифицируется по типу (заголовок, таблица, формула, подпись и т. д.) и оценивается по степени уверенности как на уровне страницы, так и на уровне слова.

Mistral утверждает, что ограничивающие рамки были самой востребованной функцией. Причина проста: без данных о местоположении последующие системы не могут отследить извлеченный факт до его источника на конкретной странице. Этот пробел в отслеживаемости был постоянным камнем преткновения для предприятий, создающих конвейеры генерации, дополненной поиском (RAG), рабочие процессы соответствия требованиям или любые приложения, где вопрос "откуда взялась эта цифра?" требует проверяемого ответа.

Классификация блоков решает схожую проблему. Параграф, помеченный как "заголовок", может сегментировать документ на иерархические части для семантического поиска. Блок, помеченный как "таблица", может быть направлен в конвейер структурированных данных, а не в суммаризатор текста....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут