2 подписчика

Знакомо, когда стопка договоров на столе растёт быстрее, чем трафик в TikTok? 😅 Недавно спасли команду от 200+ часов ручной сортировки

13 мая 202513 мая 2025

1 мин

Знакомо, когда стопка договоров на столе растёт быстрее, чем трафик в TikTok? 😅 Недавно спасли команду от 200+ часов ручной сортировки — делюсь лайфхаком, как создать своего ИИ-агента для документов практически с нуля. Берём open-source модель (Donut/LayoutLMv3), дообучаем на 500 примерах, упаковываем в API и получаем робота, который за $1-2 обрабатывает 10К страниц. Главное — не хардварк, а голова ML-инженера! 📌 Коротко про архитектуру Представьте конвейер из 4 этапов: 1. Глаз робота — PaddleOCR или Donut (умеет без OCR!). 2. Мозг — модель вроде Molmo-7B (читает текст + картинки). 3. Проверка — автоматические правила (например, ИНН = 10 цифр ✔️). 4. Склад — Elasticsearch (чтобы искать документы как в Google). 💡 Секрет экономии: арендуем GPU в облаке только на время обработки. 🔥 Топ-3 модели 2025 года Donut -Лёгкая, не требует OCR , но путается в кириллице Molmo-7B - Умная, как ChatGPT для документов,но жрёт много видеопамяти Gemma 3 VLM- Новая, понимает контекст

Берём open-source модель (Donut/LayoutLMv3), дообучаем на 500 примерах, упаковываем в API и получаем робота, который за $1-2 обрабатывает 10К страниц. Главное — не хардварк, а голова ML-инженера!

📌 Коротко про архитектуру

Представьте конвейер из 4 этапов:

1. Глаз робота — PaddleOCR или Donut (умеет без OCR!).

2. Мозг — модель вроде Molmo-7B (читает текст + картинки).

3. Проверка — автоматические правила (например, ИНН = 10 цифр ✔️).

4. Склад — Elasticsearch (чтобы искать документы как в Google).

💡 Секрет экономии: арендуем GPU в облаке только на время обработки.

🔥 Топ-3 модели 2025 года

Donut -Лёгкая, не требует OCR , но путается в кириллице

Molmo-7B - Умная, как ChatGPT для документов,но жрёт много видеопамяти

Gemma 3 VLM- Новая, понимает контекст, мало отзывов

💻 Код для смелых (спойлер: там всего 5 строк!)

# 1. Ставим библиотеки

pip install transformers datasets

# 2. Качаем предобученную модель

from transformers import DonutProcessor, VisionEncoderDecoderModel

# 3. Загружаем свои данные (300 сканов + разметка)

# 4. Обучаем!

accelerate launch train.py --model_name=donut-base --epochs=3

💸 Сколько это стоит?

- Облако: $2.2 за 10К страниц (дешевле кофе ☕).

- Своё железо: RTX 4060 справится «на коленке».

- Спасённые нервы: бесценно.

Каждый следующий пакет документов будет стоить ещё меньше — масштаб рулит!

🛠 Лайфхаки для внедрения

1. Контроль качества: выборочно проверяйте 5% документов.

2. Интеграция с 1С/Notion: через вебхуки — 15 минут работы.

3. Поиск по архиву: спрашивайте у ИИ «Покажи все акты от ООО “Ромашка”» 🤖

📚 Что почитать за обедом

- Как Molmo-7B понимает таблицы (для гиков)

- Обзор моделей 2025 — просто о сложном

- Кейс внедрения в Azure — готовые рецепты

Автоматизировать обработку документов в 2025 — как собрать Lego. Берите open-source, немного Python и cloud — и ваши сканы больше не будут пугать коллег!

А вы уже пробовали подобное? Делитесь в комментах — обсудим! 👇

#автоматизация #AI #документооборот #ML