Сеня рядом и Белла пришел. Былое
Как извлекать структурированные данные из документов и изображений локально с помощью Ollama и Pydantic
Когда речь заходит о «визуальной ETL» — превращении изображений, сканов документов и прочих медиафайлов в удобные для дальнейшей автоматизации объекты, многим из нас хочется чего-то простого и надёжного. Проект VLM Run Hub как раз предлагает решение: набор заранее определённых Pydantic-схем и инструментов для удобного извлечения данных из самых разных источников. Но самое интересное — это возможность локальной обработки с помощью Ollama и структурированных ответов, валидируемых Pydantic. 🚦 Точность...
Python чтение pdf файлов
В предыдущей статье "Python работа с файлами PDF" мы рассмотрели основные библиотеки для работы с PDF (чтения, извлечения данных и создания PDF файлов). В данной статье мы рассмотрим методы чтение и извлечение данных из файлов PDF средствами Python. Для извлечения данных из файла PDF используют следующие библиотеки: PyPDF2 Устанавливаем библиотеку через командную строку: pip install PyPDF2 Извлечение метаданных PDF: В метаданных содержатся сведения о количестве страниц, сведения об авторе, авторах, название приложения в котором создан файл, дата создания...