465 подписчиков

deepseek_ocr_app: Современное веб-приложение для оптического распознавания изображений

3 февраля3 фев

1 мин

deepseek_ocr_app — это мощное и гибкое веб-решение для OCR (Optical Character Recognition), построенное на базе передовой модели DeepSeek-OCR. Приложение сочетает в себе производительный бэкенд на FastAPI и отзывчивый интерфейс на React, обеспечивая высокую точность распознавания текста и объектов. * Многоформатная обработка: Поддержка изображений (JPEG, PNG, TIFF, WEBP) и PDF-документов размером до 100 МБ. * Четыре режима работы: * Plain OCR: Быстрое извлечение чистого текста. * Describe: Создание краткого текстового описания содержимого изображения. * Find (Grounding): Поиск и локализация конкретных объектов или текста с выводом координат. * Freeform: Выполнение пользовательских инструкций (например, «извлечь только итоговую сумму из чека»). * Интеллектуальное распознавание: Модель эффективно справляется со сложными макетами, таблицами, формулами, рукописным текстом и многоязычными документами. * Конвертация и экспорт: Возможность сохранения результатов в форматах Markdown, HTML, DOC

Оглавление

Основные возможности
Преимущества

deepseek_ocr_app — это мощное и гибкое веб-решение для OCR (Optical Character Recognition), построенное на базе передовой модели DeepSeek-OCR. Приложение сочетает в себе производительный бэкенд на FastAPI и отзывчивый интерфейс на React, обеспечивая высокую точность распознавания текста и объектов.

Основные возможности

* Многоформатная обработка: Поддержка изображений (JPEG, PNG, TIFF, WEBP) и PDF-документов размером до 100 МБ.

* Четыре режима работы:

* Plain OCR: Быстрое извлечение чистого текста.

* Describe: Создание краткого текстового описания содержимого изображения.

* Find (Grounding): Поиск и локализация конкретных объектов или текста с выводом координат.

* Freeform: Выполнение пользовательских инструкций (например, «извлечь только итоговую сумму из чека»).

* Интеллектуальное распознавание: Модель эффективно справляется со сложными макетами, таблицами, формулами, рукописным текстом и многоязычными документами.

* Конвертация и экспорт: Возможность сохранения результатов в форматах Markdown, HTML, DOCX и JSON с сохранением структуры документа.

Преимущества

* Высокая точность: Использование технологии Contextual Optical Compression позволяет достигать точности выше 97% при сохранении структуры.

* Современный стек: Быстрый API на Python (FastAPI) и удобный UI (React/Vite + Tailwind CSS) с поддержкой Drag-and-drop.

* Автономность и Docker: Легкое развертывание в локальной среде с помощью Docker Compose; поддержка ускорения на GPU (NVIDIA).

* Эффективность: Модель оптимизирована для работы с большими объемами данных и сложной версткой (научные статьи, чеки, формы).

Скачать с GitHub

⬇️Поддержать автора⬇️

✅SBER: 2202 2050 1464 4675