113 читали · 1 год назад
Крупнейшие датасеты для машинного обучения
Огромный набор датасетов, которые вы можете скачать и начать пользоваться прямо сейчас. @bigdatai - еще больше открытых размеченных датасетов в нашем телеграм канале. Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning) Рост населения датасет News Articles — содержит атрибуты новостной статьи. Satellite Photograph Order — набор данных спутниковых фотографий Земли — цель состоит в том, чтобы предсказать, какие фотографии были сделаны раньше других...
578 читали · 1 год назад
Про датасеты для обучения языковых ИИ моделей
Всем привет! Давно хотел написать публикацию в которой были бы перечислены самые распространённые варианты датасетов для обучения языковых моделей. Про то как правильно собирать датасеты для языковых моделей меня спрашивают не то чтобы часто, но каждый раз приходится достаточно подробно расписывать что да как. Поэтому я решил собрать все свои мысли на этот счёт в одну небольшую публикацию и в дальнейшем просто ссылаться на неё. Кстати, также рекомендую ознакомиться с моей публикацией про систему Label Studio, там я рассказывал про то как упростить процедуру создания и разметки датасетов...