12 подписчиков

💡 LLM, RAG, токены и промпты - лекция Применение технологий искусственного интеллекта в профессиональном образовании

9 апреля9 апр

2 мин

Я подготовил интерактивные тренажёры для изучения LLM и RAG, ссылка в конце поста 👇 💡 Ключевые пункты: 1. LLM «не читают» текст как человек: вход превращается в токены, каждому присваивается числовой ID; модель оперирует паттернами последовательностей, а не человеческим «смыслом». 2. Токенизация может быть по словам или подсловам; практичный компромисс BPE (Byte-Pair Encoding), позволяющий компактно кодировать редкие слова через подслова. 3. Контекстное окно- лимит токенов, которые модель удерживает «одновременно»; при превышении часть входа перестает учитываться, поэтому важно контролировать объем промпта/диалога. 4. Векторные представления (эмбеддинги) формируют многомерное пространство близостей, где токены/слова связаны «по смыслу» (семантическая близость измеряется численно). 5. Трансформер использует самовнимание: множество параллельных «голов» распределяют веса между токенами (грамматика, зависимости, локальное окно, субъект–предикат и др.), снижая «забывание» начала дли

Я подготовил интерактивные тренажёры для изучения LLM и RAG, ссылка в конце поста 👇

💡 Ключевые пункты:

1. LLM «не читают» текст как человек: вход превращается в токены, каждому присваивается числовой ID; модель оперирует паттернами последовательностей, а не человеческим «смыслом».

2. Токенизация может быть по словам или подсловам; практичный компромисс BPE (Byte-Pair Encoding), позволяющий компактно кодировать редкие слова через подслова.

3. Контекстное окно- лимит токенов, которые модель удерживает «одновременно»; при превышении часть входа перестает учитываться, поэтому важно контролировать объем промпта/диалога.

4. Векторные представления (эмбеддинги) формируют многомерное пространство близостей, где токены/слова связаны «по смыслу» (семантическая близость измеряется численно).

5. Трансформер использует самовнимание: множество параллельных «голов» распределяют веса между токенами (грамматика, зависимости, локальное окно, субъект–предикат и др.), снижая «забывание» начала длинных фрагментов.

6. GPT-подобные модели при генерации причинны: «видят» только прошлый контекст и предсказывают следующий токен; на выходе логиты превращаются в вероятности.

7. Генерация — авторегрессивная (токен за токеном); параметр температуры управляет детерминированностью/креативностью (0 - «жадная» и более стабильная, выше - более вариативная), также можно ограничивать число рассматриваемых кандидатов (top-k/top-n).

8. Оценивание письменных работ LLM — это тоже управляемая генерация по промпту (роль, критерии, шкалы, инструкции), а не «сравнение с эталоном».

9. Ограничения LLM системны: галлюцинации (модель «не умеет не знать»), предвзятость к форме/структуре текста и «отсечка обучения» (неактуальность данных после даты обучения).

10. Для актуальности и опоры на внутренние материалы применяется RAG: ответ строится на извлеченных релевантных фрагментах из загруженной базы, что снижает фантазирование и компенсирует отсечку знаний.

11. RAG-пайплайн: подготовка документов → чанкинг → эмбеддинги → векторная БД → семантический поиск → генерация ответа на основе найденных чанков.

12. При работе с персональными/чувствительными данными загрузка в облако рискованна из‑за возможной деанонимизации; альтернатива -локальный RAG (например, AnythingLLM + локальная модель типа Qwen) и локальная векторная база при достаточной вычислительной мощности.

Вот здесь можно изучить как работают большие языковые модели, RAG, промптинг и поэкспериментировать с их настройками

#ИИ #Искусственный_интелект

Гаджеты и электроника

5,73 млн интересуются