Разметил с помощью cvat 100 изображений для тренировки, 20 для валидации и 10 для теста. Собственно, это было самое сложное. Я ОЧЕНЬ не люблю нудную работу (Именно поэтому и стал автоматизатором 8) )Даже завидую людям которые работают\подрабатывают разметчиками. Хотя, так как это простой текстовый блок и не пришлось выделять по контуру - по времени вышло где-то час. Мангу специально взял не сложную, главное было понять общий подход. Нейросеть сделал на основе YOLOv8. Как мне показалось, самая простая модель для сегментирования. Код простой до ужаса: !pip install ultralytics from ultralytics import YOLO model = YOLO('yolov8s-seg.pt') results = model.train(data = '/path/to/dataset/', epochs=400, batch=16) И все! Модель обучалась где-то 20 минут и довольно уверенно находила блоки теста на страницах. Но, по факту, она бесполезна. Не сказать чтобы совсем, но применить ее в проекте будет сложно. В процессе просмотра обучающих видео я понял что данную идею лучше пока отложить.
Во-первых