Найти тему
Когда скучно SDET`у

Чем нейросеть YOLO лучше Easyocr для поиска текста?

Почему важно правильно выбирать архитектуру нейронной сети и обучать ее на своих данных?

Что было задумано: Найти блоки текста на картинке. Верезать данные блоки по маске и отправить изображение и маску в нейросеть для восстановления фона.

Пример разметки своих данных для обучения YOLO
Пример разметки своих данных для обучения YOLO

Что было сделано: Реализована и обучена на своих данных сеть на основе YOLO. Но в результате стало понятно что вырезается слишком большой обьем данных что, скорее всего, негативно повлияет на корректность восстановления фона. Решил было посмотреть в сторону Easyocr, которая умеет находить и распозновать текст.

B внезапно выяснилось, что моя первая нейросеть сделанная "на попробовать" для поиска блоков текста работает лучше чем специализированная easyocr, которая специально реализована для поиска и распознования текста. А в качестве небольшого бонуса, моей реализации даже язык не важен.

Именно из-за того что свое решение обычно более оптимально подходит для решения частных задач я и решил попробовать сделать все самому. Да, в даный момент я использую YOLO, но, думаю рано или поздно попробую написать свою нейросеть (Но это не точно 8) ). Но сначала разберусь с восстановлением фона. Идеи уже есть, но тут, скорее всего, быстро не получится...

P.S. Тут я недавно говорил что пригодится все. Жена уже пригодилась. Как раз показывая ей, чем я там занимаюсь и всплыла данная ситуация. Ждем когда пригодятся черепахи)