В сторону: Cверточных сетей (а именно они используются при работе с изображениями в 99% случаев). Отдельное спасибо: Хоть стало понятно в какую сторону копать. Но проблема в том, что применимых примеров работы на самом деле нет. Все сводится к детекции и все. Причем, зачастую просто к варианту "На картинке есть кошка". Но первый шаг сделан. Cегментация тут пока вопросы, какую использовать. Так как есть несколько вариантов: 1) Semantic segmentation - найдет все пиксели принадлежащие тексту. Можно удалить весь текст разом. В принципе, если текста вне баблов нет - то вариант идеальный. Но вот не верю я в это... 2) Instance segmentation - найдет не просто текст а разобьет на отдельные блоки (а то и символы). Которые на следующем этапе можно вырезать с увеличением размера маски и отправить на вырезание текста и восстановление фона. Пока моя основная идея. Плохо то что примеров с текстом я не нашел. Отделить собак от кошек, ложки от ножей и прочее - их много. А примеры с текстом ТОЛЬКО