В сторону:
Cверточных сетей
(а именно они используются при работе с изображениями в 99% случаев).
Отдельное спасибо:
Хоть стало понятно в какую сторону копать. Но проблема в том, что применимых примеров работы на самом деле нет. Все сводится к детекции и все. Причем, зачастую просто к варианту "На картинке есть кошка". Но первый шаг сделан.
Cегментация
тут пока вопросы, какую использовать. Так как есть несколько вариантов:
1) Semantic segmentation - найдет все пиксели принадлежащие тексту. Можно удалить весь текст разом. В принципе, если текста вне баблов нет - то вариант идеальный. Но вот не верю я в это...
2) Instance segmentation - найдет не просто текст а разобьет на отдельные блоки (а то и символы). Которые на следующем этапе можно вырезать с увеличением размера маски и отправить на вырезание текста и восстановление фона. Пока моя основная идея. Плохо то что примеров с текстом я не нашел. Отделить собак от кошек, ложки от ножей и прочее - их много. А примеры с текстом ТОЛЬКО на распознавание.
Восстановление фона
Вот тут пока непонятно от слова "вообще". Примеров нет, идей особо тоже. Скорее всего попробую натренировать отдельную сеть прямого распространения. Но продолжаю искать.
Тут еще будет проблема с датасетом. Закинул народу на ридманге вопрос, может кто поделится остатками от перевода "было -> клин"