137 подписчиков
Всем привет! Давно хотел написать публикацию в которой были бы перечислены самые распространённые варианты датасетов для обучения языковых моделей. Про то как правильно собирать датасеты для языковых моделей меня спрашивают не то чтобы часто, но каждый раз приходится достаточно подробно расписывать что да как. Поэтому я решил собрать все свои мысли на этот счёт в одну небольшую публикацию и в дальнейшем просто ссылаться на неё. Кстати, также рекомендую ознакомиться с моей публикацией про систему Label Studio, там я рассказывал про то как упростить процедуру создания и разметки датасетов...
9 месяцев назад
27 подписчиков
Базы данных получили широкое распространение в различных отраслях экономики. Это и правовые базы данных (Гарант, Консультант+ и др.), содержащие нормативные документы, судебную практику, авторские и другие материалы с возможностью поиска по разного рода критериям. Это также базы, в которых собрана и систематизирована общедоступная информация из различных источников с возможностью поиска, базы для медиков и др. Базы данных интересны тем, что они являются объектами авторского и смежных прав, а также...
10 месяцев назад