RuBERT был натренирован на русской части Википедии и новостных данных. Эти обучающие данные были использованы для создания словаря русских токенов. В качестве инициализации для RuBERT была взята многоязычная версия BERT-базы.
Подробнее можно почитать на сайте DeepPavlov команды.
В данной статье предполагается, что у вас уже установлена Anaconda или miniconda.
Шаг 1. Создаём чистую среду
Чтобы не вызывать конфликты версий библиотек, создаём новую среду.
Переходим в созданную среду
Если нужно выйти из среды, используйте эту команду
Шаг 2. Устанавливаем PyTorch
Заходим на официальный сайт, немного пролистываем вниз до секции установки.
Выбираем для себя подходящие параметры. В моём случае это Windows, Python и без CUDA, так как устанавливаю на свой ноутбук.
Копируем команду для установки и выполняем её в нашей созданной среде (Шаг 1. Убедитесь, что выполнили перед этим conda activate env_name).
Я добавил к команде -y, чтобы он не спрашивал нужно ли установить дополнительные пакеты.
Вы должны увидеть результат наподобие этого:
Шаг 3. Устанавливаем transformers
Подробнее про эту библиотеку можно почитать в официальном репозитории Github.
Согласно их описанию перед установкой необходимо установить PyTorch или Tensorflow, в зависимости от того, что вы используете. Мы сделали это вторым шагом.
Устанавливаем библиотеку через pip:
Шаг 4. Подключаем модель RuBERT
Теперь можно подключить натренерованную модель и использовать с русским языком:
P.S. Если вы используете TensorFlow, то на втором шаге нужно будет установить его вместо PyTorch. И в последнем шаге вместо AutoModel импортировать TFAutoModel и поменять return_tensors="tf".
На этом всё :) Ставьте лайк, если статья понравилась и подписывайтесь на канал. Впереди ещё много интересного!