RuBERT был натренирован на русской части Википедии и новостных данных. Эти обучающие данные были использованы для создания словаря русских токенов. В качестве инициализации для RuBERT была взята многоязычная версия BERT-базы...
#machine learning #nlp #bert #эмбеддинги #нейронные сети #python Сегодня я рассмотрю процесс получения эмбеддингов текстов с помощью BERT для их дальнейшего тематического моделирования. Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель — BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др...