Всем привет! Давно хотел написать публикацию в которой были бы перечислены самые распространённые варианты датасетов для обучения языковых моделей. Про то как правильно собирать датасеты для языковых моделей меня спрашивают не то чтобы часто, но каждый раз приходится достаточно подробно расписывать что да как. Поэтому я решил собрать все свои мысли на этот счёт в одну небольшую публикацию и в дальнейшем просто ссылаться на неё. Кстати, также рекомендую ознакомиться с моей публикацией про систему Label Studio, там я рассказывал про то как упростить процедуру создания и разметки датасетов...
С разрастанием системы управления, государственные учреждения, как органы власти, постоянно находились и находятся до сих пор в поисках оптимизации документооборота. В этой ситуации определённое значение всегда имело упорядочивание информации, ее потоков, а также совершенствование работы с документами с применением основ стандартизации. Установление в государственной системе документирования образцов документов становилось примером и для других сфер жизнедеятельности человека. Так, основные принципы документирования, применяемые в деятельности органов государственной власти, стали образцом в делопроизводстве монастырей и церквей (XVI-XIX вв...