Продолжаю дальше разбираться с обработкой естественных языков (NLP) и большими языковыми моделями (LLM). Вчера на цепях Маркова сделал простенького чат-бота, который выдаёт советы по умному дому вперемешку с анекдотами. 🙂 Цепи Маркова — это простая статистическая модель, которая предсказывает следующее слово на основе предыдущих. Я обучил бота на анекдотах и сообщениях из чатов по Home Assistant и
теперь бот знает, что после «умный» часто идёт слово «дом», а после
«армянское» — «радио». Поэтому если задать такому боту вопрос про «Home
Assistant, то он просто попытается продолжить предложение, используя
слова, которые обычно идут следом за словом «Assistant». Прям как
автодополнение и T9 на телефоне. На скриншоте ниже пример работы «продвинутого» бота с POS-тегированием (с учётом частей речи) и большим набором данных. Нет, но цепи Маркова были важным историческим этапом в развитии NLP — они
показали, что можно генерировать осмысленный текст статистическими
методами. Сейчас в сов