Приветствую вас, мои уважаемые читатели! В данной публикации мой рассказ будет про один очень любопытный инструмент для создания и управления датасетами, их разметке, как ручной так и автоматической, под названием Label Studio. Ранее в публикации Как я боролся с матюками: история одного ML API я вскользь затрагивал тему работы с Label Studio и подключения к ней системы автоматической классификации текстовых данных, однако, на этот раз решил чуть более подробно осветить эту тему. Введение Как и многие...
Всем привет! Давно хотел написать публикацию в которой были бы перечислены самые распространённые варианты датасетов для обучения языковых моделей. Про то как правильно собирать датасеты для языковых моделей меня спрашивают не то чтобы часто, но каждый раз приходится достаточно подробно расписывать что да как. Поэтому я решил собрать все свои мысли на этот счёт в одну небольшую публикацию и в дальнейшем просто ссылаться на неё. Кстати, также рекомендую ознакомиться с моей публикацией про систему Label Studio, там я рассказывал про то как упростить процедуру создания и разметки датасетов...