Миллионы людей каждый день пишут в ChatGPT, Gemini, GigaChat. Просят советов, генерируют тексты, решают задачи. И почти никто не задаётся вопросом: а как это вообще работает?
Не «магия» и не «продвинутый автодополнитель» — а реально, на уровне математики и логики. Что происходит за долю секунды, пока нейросеть формирует ответ?
Давайте разберёмся. Без формул. Почти.
🧩 Шаг первый: текст превращается в числа
Прежде чем нейросеть начнёт «думать», ваш текст нужно перевести в понятный ей язык.
Она не видит слова. Она видит токены — кусочки текста, обычно по одному слову или по несколько букв. Каждый токен — это просто номер в огромном словаре. «Кот» — номер 4821. «Привет» — 1337. И так далее.
Но это ещё не всё. Номер тут же конвертируется в набор из тысяч чисел с плавающей запятой. В современных моделях — обычно около 4096 чисел на каждый токен.
Зачем столько? Потому что нейросеть в процессе обучения сама нашла себе ~4096 характеристик, по которым описывает любое слово. Что-то вроде: насколько слово «эмоциональное», насколько «конкретное», относится ли к живому существу, к действию, к времени... Только эти характеристики — не человеческие, а собственные, придуманные сетью. И нам они неизвестны.
Грубо говоря, слово «кот» для нейросети — это не просто «кот». Это вектор из тысяч чисел, который кодирует всё, что сеть знает об этом понятии.
🌅 Шаг второй: токены начинают «общаться»
Вот теперь начинается самое интересное.
Представьте, что каждый токен — это маленький персонаж. У него есть:
- своя личность (Key) — насколько он «интересен» окружающим;
- свои интересы (Query) — что ему самому хочется узнать от других;
- своя история (Value) — что он расскажет тем, кто спросит.
Все токены одновременно смотрят друг на друга и задают вопрос: «А ты мне важен? Насколько?»
Токен «не» очень интересуется токеном «люблю», стоящим рядом, — потому что отрицание меняет смысл. Токен «банк» хочет понять, стоит рядом «деньги» или «река» — от этого зависит весь смысл. Этот механизм называется self-attention, и он — сердце трансформера.
В результате каждый токен получает «усреднённый опыт» всех соседей — с учётом того, кто ему важен, а кто нет. Токен в конце предложения «знает» о его начале. Токен «он» понимает, кого именно заменяет.
Это не метафора. Буквально: матрица Query умножается на матрицу Key, получается маска внимания, через которую фильтруются «рассказы» (Value) всех токенов. Каждый токен формирует своё представление о контексте.
Причём есть одно важное правило: каждый токен видит только тех, кто стоит до него. Будущее — закрыто. Это сделано намеренно: когда модель обучается предсказывать следующее слово, она не должна «подглядывать» в ответ.
🌙 Шаг третий: токены «осмысляют» увиденное
После «дневного общения» каждый токен уходит «спать» — на этап, который называется Feed-Forward Network.
Звучит скучно, но суть красивая. Набор из 4096 характеристик токена временно «раздувается» в три раза — до ~12 000 параметров. Там включается своеобразный фильтр: слишком яркие сигналы притупляются, слабые — гасятся. А потом всё снова сжимается обратно в 4096 чисел.
Это похоже на то, как мозг обрабатывает информацию во сне: впечатления дня перевариваются, укладываются по полочкам, формируется вывод.
Математически — это просто жёсткий набор правил: «если есть такой-то набор признаков, выдать вот такой результат». Но правил этих — миллиарды, и они работают вместе.
🔁 И так — 36 раз подряд
Один цикл «общение + осмысление» — это один слой трансформера. В маленькой модели их бывает 12–24. В крупных — до 100 и больше.
Возьмём для примера Qwen3 8B — относительно компактную, но умную модель. В ней 36 таких слоёв.
На каждом слое токены общаются по-новому: матрицы внимания разные, правила другие. Если на первом слое токены замечают простые вещи — грамматику, соседние слова — то к 36-му слою они уже «думают» о смысле, логике, контексте всего текста.
Это как если бы каждый день в вашей голове включалась другая оптика: сначала замечаешь цвет, потом форму, потом смысл, потом связи между смыслами.
🎲 Финал: монетка решает, что написать
После всех 36 слоёв последний токен в тексте — тот, что стоит в самом конце вашего запроса — формирует список вероятностей: какое слово должно идти следующим?
Например: «кот» — 34%, «пёс» — 18%, «человек» — 5%...
И тут происходит единственный случайный момент во всём процессе: бросается монетка (точнее, берётся случайное число с учётом весов). Именно поэтому нейросеть каждый раз отвечает немного по-разному на один и тот же вопрос.
Выбранный токен дописывается в конец текста. И весь процесс запускается заново — уже с новым токеном на конце. Слово за словом, токен за токеном — так и рождается ответ.
🤔 Так думает ли нейросеть?
Это вопрос, который не даёт покоя философам и учёным.
С технической точки зрения — да, что-то похожее на мышление происходит. Каждый токен формирует своё «мнение» о том, что будет дальше. Происходит своеобразное голосование. Сеть строит цепочку рассуждений — в буквальном смысле: каждый новый токен добавляет новую мысль, опираясь на все предыдущие.
Модели, которым разрешают «думать вслух» (режим Extended Thinking в Claude, «размышления» в DeepSeek), буквально пишут промежуточные рассуждения, как человек на бумаге. И от этого их ответы становятся умнее.
Но называть это «сознанием» или «пониманием» — уже другой разговор. Пока что нейросеть — это невероятно сложная система предсказания. Просто предсказание настолько глубокое, что начинает выглядеть как мышление.
💡 Главное, что стоит запомнить
- Нейросеть не «знает» слова — она работает с числами
- Каждое слово — это вектор из тысяч характеристик
- Токены «смотрят» друг на друга и обмениваются информацией — это self-attention
- Слоёв такого обмена — десятки, и на каждом понимание становится глубже
- Случайность есть ровно в одном месте: выбор финального токена
- То, что мы называем «ответом» — это результат миллиардов маленьких операций за секунды
Впечатляет? Ещё бы. И это только начало — потому что то, что умеют современные модели, ещё несколько лет назад казалось научной фантастикой.
📌 Итоги: главное за 1 минуту
🗓 Прямо сейчас — более 500 миллионов человек регулярно используют нейросети
🧠 Каждый ответ ChatGPT или Claude — результат работы десятков миллиардов параметров
🔁 Один токен проходит через 36+ слоёв «мышления», прежде чем вы увидите следующее слово
🎲 Единственная случайность в нейросети — финальный выбор токена. Всё остальное — математика
🚀 Современные модели перешли на архитектуру MoE: часть сети «спит», пока другая работает — это в разы быстрее
⚡ Следующий рубеж — не просто языковые модели, а агенты, которые сами ставят задачи и сами их решают
⚠️ Главный вопрос уже не «умеет ли нейросеть думать», а «где заканчивается инструмент и начинается нечто большее»
Рассказываю как бесплатно пользоваться нейросетями и автоматизировать жизнь, экономя сотни часов, в моём канале.