Знакомо, когда стопка договоров на столе растёт быстрее, чем трафик в TikTok? 😅 Недавно спасли команду от 200+ часов ручной сортировки — делюсь лайфхаком, как создать своего ИИ-агента для документов практически с нуля. Берём open-source модель (Donut/LayoutLMv3), дообучаем на 500 примерах, упаковываем в API и получаем робота, который за $1-2 обрабатывает 10К страниц. Главное — не хардварк, а голова ML-инженера! 📌 Коротко про архитектуру Представьте конвейер из 4 этапов: 1. Глаз робота — PaddleOCR или Donut (умеет без OCR!). 2. Мозг — модель вроде Molmo-7B (читает текст + картинки). 3. Проверка — автоматические правила (например, ИНН = 10 цифр ✔️). 4. Склад — Elasticsearch (чтобы искать документы как в Google). 💡 Секрет экономии: арендуем GPU в облаке только на время обработки. 🔥 Топ-3 модели 2025 года Donut -Лёгкая, не требует OCR , но путается в кириллице Molmo-7B - Умная, как ChatGPT для документов,но жрёт много видеопамяти Gemma 3 VLM- Новая, понимает контекст
Знакомо, когда стопка договоров на столе растёт быстрее, чем трафик в TikTok? 😅 Недавно спасли команду от 200+ часов ручной сортировки
13 мая13 мая
1 мин