Mistral выпустил OCR 4, программу, которая читает документы и сразу понимает их устройство
Если коротко, OCR это технология, которая достает текст из картинок и сканов. Раньше она просто считывала буквы подряд и часто ломала таблицы и верстку. OCR 4 работает иначе. Он видит, где заголовок, где таблица, где формула, и помнит, в каком месте страницы что находится. Зачем это нужно на простом примере. Загружаете PDF договора и спрашиваете что нибудь по тексту. Модель не только отвечает, но и подсвечивает место в оригинале, откуда взяла данные...