146 подписчиков
Приветствую вас, мои уважаемые читатели! В данной публикации мой рассказ будет про один очень любопытный инструмент для создания и управления датасетами, их разметке, как ручной так и автоматической, под названием Label Studio. Ранее в публикации Как я боролся с матюками: история одного ML API я вскользь затрагивал тему работы с Label Studio и подключения к ней системы автоматической классификации текстовых данных, однако, на этот раз решил чуть более подробно осветить эту тему. Введение Как и многие...
9 месяцев назад
146 подписчиков
Всем привет! Давно хотел написать публикацию в которой были бы перечислены самые распространённые варианты датасетов для обучения языковых моделей. Про то как правильно собирать датасеты для языковых моделей меня спрашивают не то чтобы часто, но каждый раз приходится достаточно подробно расписывать что да как. Поэтому я решил собрать все свои мысли на этот счёт в одну небольшую публикацию и в дальнейшем просто ссылаться на неё. Кстати, также рекомендую ознакомиться с моей публикацией про систему Label Studio, там я рассказывал про то как упростить процедуру создания и разметки датасетов...
9 месяцев назад
2 подписчика
Когда начинаешь свой путь в освоение инструментов машинного обучения/анализа данных не понятно, где взять данные. Давайте решим эту проблему. 1. Датасеты sklearn Для начала необходимо установить библиотеку scikit-learn c помощью команды: pip install scikit-learn. С помощью нее мы можем получить данные для анализа sklearn.datasets.[name_of_library]. Еще одна полезная функция sklearn, это разделение датасета на тренировочную и тестовую выборку. from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y,stratify=y,test_size=0...
1 год назад