Я подготовил интерактивные тренажёры для изучения LLM и RAG, ссылка в конце поста 👇 💡 Ключевые пункты: 1. LLM «не читают» текст как человек: вход превращается в токены, каждому присваивается числовой ID; модель оперирует паттернами последовательностей, а не человеческим «смыслом». 2. Токенизация может быть по словам или подсловам; практичный компромисс BPE (Byte-Pair Encoding), позволяющий компактно кодировать редкие слова через подслова. 3. Контекстное окно- лимит токенов, которые модель удерживает «одновременно»; при превышении часть входа перестает учитываться, поэтому важно контролировать объем промпта/диалога. 4. Векторные представления (эмбеддинги) формируют многомерное пространство близостей, где токены/слова связаны «по смыслу» (семантическая близость измеряется численно). 5. Трансформер использует самовнимание: множество параллельных «голов» распределяют веса между токенами (грамматика, зависимости, локальное окно, субъект–предикат и др.), снижая «забывание» начала дли
💡 LLM, RAG, токены и промпты - лекция Применение технологий искусственного интеллекта в профессиональном образовании
9 апреля9 апр
1
2 мин