124 подписчика

Объясняю, что творится внутри ChatGPT — без формул и занудства

20 марта20 мар

5 мин

Миллионы людей каждый день пишут в ChatGPT, Gemini, GigaChat. Просят советов, генерируют тексты, решают задачи. И почти никто не задаётся вопросом: а как это вообще работает? Не «магия» и не «продвинутый автодополнитель» — а реально, на уровне математики и логики. Что происходит за долю секунды, пока нейросеть формирует ответ? Давайте разберёмся. Без формул. Почти. Прежде чем нейросеть начнёт «думать», ваш текст нужно перевести в понятный ей язык. Она не видит слова. Она видит токены — кусочки текста, обычно по одному слову или по несколько букв. Каждый токен — это просто номер в огромном словаре. «Кот» — номер 4821. «Привет» — 1337. И так далее. Но это ещё не всё. Номер тут же конвертируется в набор из тысяч чисел с плавающей запятой. В современных моделях — обычно около 4096 чисел на каждый токен. Зачем столько? Потому что нейросеть в процессе обучения сама нашла себе ~4096 характеристик, по которым описывает любое слово. Что-то вроде: насколько слово «эмоциональное», насколько «конк

Оглавление

🧩 Шаг первый: текст превращается в числа
🌅 Шаг второй: токены начинают «общаться»
🌙 Шаг третий: токены «осмысляют» увиденное

Миллионы людей каждый день пишут в ChatGPT, Gemini, GigaChat. Просят советов, генерируют тексты, решают задачи. И почти никто не задаётся вопросом: а как это вообще работает?

Не «магия» и не «продвинутый автодополнитель» — а реально, на уровне математики и логики. Что происходит за долю секунды, пока нейросеть формирует ответ?

Давайте разберёмся. Без формул. Почти.

🧩 Шаг первый: текст превращается в числа

Прежде чем нейросеть начнёт «думать», ваш текст нужно перевести в понятный ей язык.

Она не видит слова. Она видит токены — кусочки текста, обычно по одному слову или по несколько букв. Каждый токен — это просто номер в огромном словаре. «Кот» — номер 4821. «Привет» — 1337. И так далее.

Но это ещё не всё. Номер тут же конвертируется в набор из тысяч чисел с плавающей запятой. В современных моделях — обычно около 4096 чисел на каждый токен.

Зачем столько? Потому что нейросеть в процессе обучения сама нашла себе ~4096 характеристик, по которым описывает любое слово. Что-то вроде: насколько слово «эмоциональное», насколько «конкретное», относится ли к живому существу, к действию, к времени... Только эти характеристики — не человеческие, а собственные, придуманные сетью. И нам они неизвестны.

Грубо говоря, слово «кот» для нейросети — это не просто «кот». Это вектор из тысяч чисел, который кодирует всё, что сеть знает об этом понятии.

🌅 Шаг второй: токены начинают «общаться»

Вот теперь начинается самое интересное.

Представьте, что каждый токен — это маленький персонаж. У него есть:

своя личность (Key) — насколько он «интересен» окружающим;
свои интересы (Query) — что ему самому хочется узнать от других;
своя история (Value) — что он расскажет тем, кто спросит.

Все токены одновременно смотрят друг на друга и задают вопрос: «А ты мне важен? Насколько?»

Токен «не» очень интересуется токеном «люблю», стоящим рядом, — потому что отрицание меняет смысл. Токен «банк» хочет понять, стоит рядом «деньги» или «река» — от этого зависит весь смысл. Этот механизм называется self-attention, и он — сердце трансформера.

В результате каждый токен получает «усреднённый опыт» всех соседей — с учётом того, кто ему важен, а кто нет. Токен в конце предложения «знает» о его начале. Токен «он» понимает, кого именно заменяет.

Это не метафора. Буквально: матрица Query умножается на матрицу Key, получается маска внимания, через которую фильтруются «рассказы» (Value) всех токенов. Каждый токен формирует своё представление о контексте.

Причём есть одно важное правило: каждый токен видит только тех, кто стоит до него. Будущее — закрыто. Это сделано намеренно: когда модель обучается предсказывать следующее слово, она не должна «подглядывать» в ответ.

🌙 Шаг третий: токены «осмысляют» увиденное

После «дневного общения» каждый токен уходит «спать» — на этап, который называется Feed-Forward Network.

Звучит скучно, но суть красивая. Набор из 4096 характеристик токена временно «раздувается» в три раза — до ~12 000 параметров. Там включается своеобразный фильтр: слишком яркие сигналы притупляются, слабые — гасятся. А потом всё снова сжимается обратно в 4096 чисел.

Это похоже на то, как мозг обрабатывает информацию во сне: впечатления дня перевариваются, укладываются по полочкам, формируется вывод.

Математически — это просто жёсткий набор правил: «если есть такой-то набор признаков, выдать вот такой результат». Но правил этих — миллиарды, и они работают вместе.

🔁 И так — 36 раз подряд

Один цикл «общение + осмысление» — это один слой трансформера. В маленькой модели их бывает 12–24. В крупных — до 100 и больше.

Возьмём для примера Qwen3 8B — относительно компактную, но умную модель. В ней 36 таких слоёв.

На каждом слое токены общаются по-новому: матрицы внимания разные, правила другие. Если на первом слое токены замечают простые вещи — грамматику, соседние слова — то к 36-му слою они уже «думают» о смысле, логике, контексте всего текста.

Это как если бы каждый день в вашей голове включалась другая оптика: сначала замечаешь цвет, потом форму, потом смысл, потом связи между смыслами.

🎲 Финал: монетка решает, что написать

После всех 36 слоёв последний токен в тексте — тот, что стоит в самом конце вашего запроса — формирует список вероятностей: какое слово должно идти следующим?

Например: «кот» — 34%, «пёс» — 18%, «человек» — 5%...

И тут происходит единственный случайный момент во всём процессе: бросается монетка (точнее, берётся случайное число с учётом весов). Именно поэтому нейросеть каждый раз отвечает немного по-разному на один и тот же вопрос.

Выбранный токен дописывается в конец текста. И весь процесс запускается заново — уже с новым токеном на конце. Слово за словом, токен за токеном — так и рождается ответ.

🤔 Так думает ли нейросеть?

Это вопрос, который не даёт покоя философам и учёным.

С технической точки зрения — да, что-то похожее на мышление происходит. Каждый токен формирует своё «мнение» о том, что будет дальше. Происходит своеобразное голосование. Сеть строит цепочку рассуждений — в буквальном смысле: каждый новый токен добавляет новую мысль, опираясь на все предыдущие.

Модели, которым разрешают «думать вслух» (режим Extended Thinking в Claude, «размышления» в DeepSeek), буквально пишут промежуточные рассуждения, как человек на бумаге. И от этого их ответы становятся умнее.

Но называть это «сознанием» или «пониманием» — уже другой разговор. Пока что нейросеть — это невероятно сложная система предсказания. Просто предсказание настолько глубокое, что начинает выглядеть как мышление.

💡 Главное, что стоит запомнить

Нейросеть не «знает» слова — она работает с числами
Каждое слово — это вектор из тысяч характеристик
Токены «смотрят» друг на друга и обмениваются информацией — это self-attention
Слоёв такого обмена — десятки, и на каждом понимание становится глубже
Случайность есть ровно в одном месте: выбор финального токена
То, что мы называем «ответом» — это результат миллиардов маленьких операций за секунды

Впечатляет? Ещё бы. И это только начало — потому что то, что умеют современные модели, ещё несколько лет назад казалось научной фантастикой.

📌 Итоги: главное за 1 минуту

🗓 Прямо сейчас — более 500 миллионов человек регулярно используют нейросети

🧠 Каждый ответ ChatGPT или Claude — результат работы десятков миллиардов параметров

🔁 Один токен проходит через 36+ слоёв «мышления», прежде чем вы увидите следующее слово

🎲 Единственная случайность в нейросети — финальный выбор токена. Всё остальное — математика

🚀 Современные модели перешли на архитектуру MoE: часть сети «спит», пока другая работает — это в разы быстрее

⚡ Следующий рубеж — не просто языковые модели, а агенты, которые сами ставят задачи и сами их решают

⚠️ Главный вопрос уже не «умеет ли нейросеть думать», а «где заканчивается инструмент и начинается нечто большее»

Рассказываю как бесплатно пользоваться нейросетями и автоматизировать жизнь, экономя сотни часов, в моём канале.