1206 подписчиков

Разговорник для путешественника в страну нейросетей

19 марта19 мар

13 мин

Знаете это чувство, когда приходишь в компанию, где все говорят на своём языке, а ты стоишь с чашкой чая и улыбаешься, делая вид, что всё понимаешь? Примерно так мы себя чувствовали года три назад, когда впервые услышали, как Антон обсуждает с каким-то парнем в очках «трансформеры с механизмом внимания». Мы-то подумали, речь про роботов, которые умеют слушать. Оказалось - про архитектуру нейросетей. С тех пор прошло время. Мы научились не только различать «обучение с учителем» от «обучения без учителя», но и поняли главное: за этим языком стоит что-то большое. Что-то, что меняет мир быстрее, чем мы успеваем моргнуть. Вчера сидели на кухне, пили чай с мятой, и Серёга выдал: - Слушайте, а ведь мы с вами как те самые лингвисты, которые записывают язык исчезающего племени. Только племя - это наше собственное будущее. И правда. Нейросети уже везде, а словарь для разговора с ними до сих пор приходится собирать по крупицам. А вы уверены, что понимаете, о чём на самом деле говорит ваш коллега

Оглавление

Базовые термины: с чего всё начинается
Базовые термины об ИИ
Нейросети и архитектуры

С тех пор прошло время. Мы научились не только различать «обучение с учителем» от «обучения без учителя», но и поняли главное: за этим языком стоит что-то большое. Что-то, что меняет мир быстрее, чем мы успеваем моргнуть.

Вчера сидели на кухне, пили чай с мятой, и Серёга выдал:

- Слушайте, а ведь мы с вами как те самые лингвисты, которые записывают язык исчезающего племени. Только племя - это наше собственное будущее.

И правда. Нейросети уже везде, а словарь для разговора с ними до сих пор приходится собирать по крупицам.

А вы уверены, что понимаете, о чём на самом деле говорит ваш коллега, когда упоминает «RLHF» или «катастрофическое забывание»? Или, может, вы тоже киваете, думая про что-то своё, а потом идёте гуглить и попадаете в кроличью нору из статей, написанных для таких же потерянных, как вы?

Мы решили собрать всё в одном месте.

Не как сухой словарь - боже упаси.

А как разговорник для тех, кто собрался в путешествие по стране под названием «Искусственный интеллект».

Здесь будут и простые слова, и те, от которых хочется почесать в затылке.

Главное - после каждого определения мы представляли себе живого человека, который впервые об этом слышит, и пытались объяснить так, чтобы он не убежал в ужасе, а заинтересовался.

Базовые термины: с чего всё начинается

Искусственный интеллект (AI) - системы, которые пытаются делать вид, что у них есть разум. Учатся, делают выводы, что-то там воспринимают.

Звучит пафосно, но по сути - это просто программа, которая умнее калькулятора.

Машинное обучение (ML) - когда вы не пишете программе жёсткие инструкции «если это, то делай то», а даёте ей кучу примеров и говорите: «Разбирайся сама, тут какой-то паттерн должен быть».

Она разбирается. Иногда пугающе хорошо.

Глубокое обучение - машинное обучение, но с многослойными нейросетями.

Представьте себе луковицу.

Теперь представьте, что каждый слой этой луковицы что-то понимает про картинку: первый видит просто линии, второй собирает из линий круги, третий из кругов собирает глаза.

Примерно так это и работает.

Нейронная сеть - математическая модель, которую придумали, глядя на мозг.

Только вместо настоящих нейронов там формулы, а вместо синапсов - числа, которые называются «веса».

И эти числа можно крутить, чтобы сеть училась.

Антон как-то сказал: «Нейросеть - это такой очень старательный, но совершенно безмозглый ученик, который перебирает варианты, пока не получит пятёрку».

Мне кажется, точное описание.

Базовые термины об ИИ

Искусственный интеллект (AI) - системы, имитирующие человеческий разум: обучение, вывод, восприятие.

Машинное обучение (ML) - алгоритмы, улучшающие производительность на данных без явного программирования.

Глубокое обучение (Deep Learning) - ML с многослойными нейросетями для сложных паттернов.

Нейронная сеть - модель, вдохновлённая мозгом: нейроны, слои, веса связей.

Обучение с учителем - ML, где модель учится на размеченных данных (вход-выход).

Обучение без учителя - поиск структур в неразмеченных данных (кластеризация).

Обучение с подкреплением - агент учится через награды/штрафы в окружении.

Генеративный ИИ - создаёт контент: текст, изображения, музыку (ChatGPT, DALL-E).

Дискриминационная модель - классифицирует/предсказывает (vs генеративная).

Гиперпараметр - внешние настройки модели (learning rate, batch size).

Градиентный спуск - оптимизация весов путём минимизации ошибки.

Эпоха - полный проход данных через модель во время обучения.

Переобучение (Overfitting) - модель идеальна на train, слаба на test.

Недообучение (Underfitting) - модель не улавливает паттерны данных.

Регуляризация - техники против переобучения (L1/L2, dropout).

Аугментация данных - искусственное расширение датасета (повороты фото).

Валидационная выборка - данные для тюнинга гиперпараметров.

Тестовая выборка - финальная оценка модели.

Точность (Accuracy) - доля верных предсказаний.

Precision - доля верных положительных среди предсказанных положительных.

Recall - доля верных положительных среди реальных положительных.

F1-score - гармоническое среднее precision и recall.

ROC-AUC - метрика качества бинарной классификации.

Кросс-валидация - разделение данных на фолды для надёжной оценки.

Бэкпропагация - вычисление градиентов ошибок через сеть.

Активационная функция - нелинейность (ReLU, sigmoid, tanh).

Сверточная нейросеть (CNN) - для изображений, распознаёт паттерны.

Рекуррентная сеть (RNN) - для последовательностей (текст, время).

LSTM - долгосрочная память в RNN против vanishing gradient.

GRU - упрощённая LSTM с меньшим числом параметров.

Нейросети и архитектуры

Трансформер - архитектура на attention для NLP (BERT, GPT).

Attention - механизм фокуса на релевантных частях входа.

Self-Attention - attention внутри последовательности.

Многослойный перцептрон (MLP) - базовая feedforward-сеть.

Генеративно-состязательная сеть (GAN) - генератор vs дискриминатор.

Автоэнкодер - сжимает/восстанавливает данные (для denoising).

VAE (Variational Autoencoder) - вероятностный автоэнкодер.

Диффузионная модель - генерирует изображения через шум/денойзинг.

Vision Transformer (ViT) - трансформер для изображений.

BERT - bidirectional трансформер для понимания текста.

GPT - generative pre-trained transformer для генерации.

Токен - минимальная единица текста (слово/символ).

Эмбеддинг - векторное представление слов/объектов.

Fine-tuning - дообучение предобученной модели.

Предобучение (Pre-training) - обучение на огромных корпусах.

Трансфер лёрнинг - перенос знаний между задачами.

Мульти-модальный ИИ - работает с текстом+изображениями+аудио.

Квантизация - сжатие модели (FP32→INT8) для скорости.

Прунинг - обрезка ненужных весов модели.

LoRA - низкоранговое адаптирование больших моделей.

Mixture of Experts (MoE) - маршрутизация к экспертам в сети.

Резидентная память (KV-cache) - кэш ключей/значений в attention.

Flash Attention - оптимизированный attention без полной матрицы.

Graph Neural Network (GNN) - для графовых данных.

Capsule Network - учитывает иерархию объектов.

Siamese Network - для сравнения пар (лица, подписи).

Few-shot learning - обучение на малом числе примеров.

Zero-shot learning - предсказание без примеров класса.

One-shot learning - на одном примере.

Мета-обучение - обучение к обучению.

Обучение и оптимизация

Learning Rate - скорость изменения весов.

Adam - адаптивный оптимизатор с momentum.

SGD - стохастический градиентный спуск.

Batch Normalization - нормализация по батчу.

Layer Normalization - нормализация по слоям.

Дропаут - случайное отключение нейронов.

Data Parallelism - параллель по батчам.

Model Parallelism - параллель по слоям.

Pipeline Parallelism - конвейер микробатчей.

Federated Learning - децентрализованное обучение на устройствах.

Active Learning - выбор данных для разметки.

Self-Supervised Learning - метки из данных.

Contrastive Learning - сравнение похожих/непохожих.

Knowledge Distillation - передача знаний от большой модели.

Ensemble - комбинация нескольких моделей.

Бустинг - последовательное улучшение слабых моделей.

Бэггинг - параллельные модели на подвыборках.

Градиентный бустинг (XGBoost) - для табличных данных.

Симуляция - синтетические данные для обучения.

Галлюцинация ИИ - выдуманные факты моделью.

Alignment - согласование модели с человеческими ценностями.

RLHF - обучение с подкреплением от человека.

Дрифт данных - изменение распределения со временем.

Концепт-дрифт - смена правил в задаче.

Catastrophic Forgetting - забывание старого при обучении.

Continual Learning - обучение без забывания.

Prompt Engineering - крафт запросов для LLM.

Chain-of-Thought - пошаговое мышление в промпте.

Few-Shot Prompting - примеры в промпте.

In-Context Learning - обучение в промпте.

Применение и этика

Компьютерное зрение - распознавание изображений/видео.

NLP - обработка естественного языка.

Speech-to-Text - распознавание речи.

Text-to-Speech - синтез речи.

Рекомендательные системы - предложения контента/товаров.

Автопилот - ИИ для вождения.

Чат-бот - диалоговый ИИ.

RAG - retrieval-augmented generation с поиском.

Агент ИИ - автономный исполнитель задач.

Мультимодальность - текст+видео+аудио.

Этичный ИИ - справедливость, прозрачность.

Bias - предвзятость в данных/модели.

Fairness - равенство предсказаний по группам.

Explainable AI (XAI) - объяснимый ИИ.

SHAP - значения Шэпли для интерпретации.

LIME - локальная интерпретируемость.

Дипфейк - поддельное видео/аудио.

Watermarking - метки в генерации для отслеживания.

Model Card - документация модели.

Датасет Кард - описание датасета.

AGI - искусственный общий интеллект.

ASI - сверхинтеллект.

Сингулярность - момент превосходства ИИ.

Тюринг-тест - проверка на неотличимость от человека.

Китайская комната - аргумент против сильного ИИ.

NeurIPS - конференция по ML.

ICML - Intl. Conf. on Machine Learning.

CVPR - Computer Vision and Pattern Recognition.

Tokenomics - экономика токенов LLM.

Inference - предсказание обученной модели.

Инструменты и тренды 2026

PyTorch - фреймворк для DL.

TensorFlow - Google-фреймворк ML.

Hugging Face - хаб моделей NLP.

LangChain - фреймворк для LLM-агентов.

LlamaIndex - индексация для RAG.

ONNX - стандарт обмена моделями.

CUDA - параллель на GPU NVIDIA.

TPU - тензорные процессоры Google.

Edge AI - ИИ на устройствах.

Cloud AI - облачные сервисы ИИ.

MLOps - DevOps для ML.

Feature Store - хранилище признаков.

Vector Database - базы для эмбеддингов (Pinecone).

Groq - быстрый inference-чип.

H100 - GPU NVIDIA для тренинга.

Mixture of Agents - ансамбль агентов.

Tool Calling - вызов инструментов LLM.

Function Calling - API-вызовы из промпта.

JSON Mode - структурированный вывод.

Streaming - потоковый вывод токенов.

Rate Limiting - лимит запросов API.

Context Window - макс. длина входа LLM.

Long Context - окна >100k токенов.

Multimodal LLM - GPT-4o, Gemini.

Voice AI - голосовые ассистенты.

Agentic Workflow - потоки агентов.

Auto-GPT - автономный GPT-агент.

OpenAI o1 - reasoning-модель 2024.

Claude 3.5 - Anthropic LLM.

Perplexity AI - поисковый ИИ с цитатами.

Как учатся нейросети: школа выживания

Обучение с учителем - когда у вас есть правильные ответы.

Как в школе: вам показали яблоко и сказали «это яблоко», показали грушу - «это груша».

Потом показывают фрукт и спрашивают.

Если ошиблись - исправляют.

Обучение без учителя - а вот это уже похоже на жизнь.

Вам никто не говорит, что правильно, а что нет.

Просто дают кучу всего и говорят: «Разберись, тут есть какая-то структура? Может, эти штуки похожи друг на друга?»

И сеть начинает группировать, кластеризовать, искать закономерности.

Иногда находит такое, что мы, люди, и не замечали.

Обучение с подкреплением - любимый метод дрессировщиков.

Делаешь правильно - получаешь конфету (награду).

Делаешь неправильно - лёгкий щелчок по носу (штраф).

Со временем агент (так называют обучающуюся программу) понимает, как получать максимум конфет.

Помните игру в «Сапёра»?

Вот если бы вы играли, не зная правил, и вам просто говорили: «этот ход хороший, этот плохой» - вы бы учились методом тыка.

Примерно так же.

Генеративный ИИ - создаёт новое.

Пишет тексты, рисует картинки, сочиняет музыку.

Не просто классифицирует «это кот, это собака», а может нарисовать кота в скафандре, играющего на баяне.

Почему?

Потому что видел тысячи котов, скафандров и баянов и понял, как их комбинировать.

Серёга как-то попросил нейросеть нарисовать «робота, пьющего чай с нами за столом».

Получилось жутковато (руки робота были как спагетти), но факт: она поняла концепцию.

Чай, стол, робот, компания.

Это уже что-то.

Архитектуры: из чего строят нейросети

Трансформер - не тот робот, который из грузовика превращается в человекоподобную машину.

Хотя аналогия интересная.

Трансформер в мире ИИ - это архитектура нейросети, которая умеет обращать внимание на разные части входа.

Читает предложение и понимает, что «банка» в «закрыть банку» и «банка» в «рыбная банка» - это немного разные вещи, хотя слово одно.

Attention (механизм внимания) - то, что позволяет трансформеру фокусироваться.

Как человек, который читает книгу, но вдруг слышит своё имя из соседней комнаты - внимание переключается.

Только в нейросетях это работает математически.

GAN (генеративно-состязательная сеть) - тут вообще театр абсурда.

Две нейросети играют в кошки-мышки.

Одна (генератор) пытается подделать картину, вторая (дискриминатор) пытается отличить подделку от настоящей.

Они соревнуются, и в итоге генератор учится подделывать так хорошо, что дискриминатор уже не может отличить.

Это как если бы фальшивомонетчик и эксперт из Гознака играли друг с другом до полного изнеможения.

Диффузионная модель - работает наоборот.

Сначала берёт картинку и постепенно добавляет к ней шум, пока не получится чистый белый шум.

Запоминает, как это происходило.

А потом учится делать обратное: из шума восстанавливать картинку.

Магия, да?

Проблемы и болезни нейросетей

Галлюцинация ИИ - когда нейросеть уверенно выдаёт полную ерунду.

Спросите у ChatGPT про какого-нибудь малоизвестного учёного, и он может придумать ему биографию, книги, награды.

И будет звучать убедительно.

Это не враньё в человеческом смысле - это просто сбой генерации вероятностей.

Переобучение (Overfitting) - вызубрил всё наизусть, но ничего не понял.

Как студент, который выучил билеты, но на вопрос «а почему?» отвечает затравленным взглядом.

На тестовых данных, которых не было в учебнике, такой студент проваливается.

Катастрофическое забывание — беда всех нейросетей. Учишь их новому — они забывают старое.

Как если бы вы выучили испанский, но забыли русский.

Приходится придумывать хитрые способы, чтобы этого не происходило.

2026 год: что сейчас в тренде

Сейчас все говорят про мультимодальные модели. Это когда одна нейросеть понимает и текст, и картинки, и звук. Показываешь ей фотографию кухни и спрашиваешь «что можно приготовить из этих продуктов?» — и она отвечает. Не потому, что видела эту кухню, а потому что понимает и картинку, и кулинарию.

RAG (Retrieval-Augmented Generation) - модное слово.

Означает, что нейросеть перед ответом лезет в базу знаний, ищет там что-то похожее, и только потом отвечает.

Как студент, который перед экзаменом разрешил заглядывать в конспект.

Гораздо меньше галлюцинаций.

Edge AI - нейросети, которые работают прямо на вашем телефоне или тостере, без отправки данных в облако.

Быстро, приватно, но пока чуть глупее, чем большие братья в интернете.

Антон недавно купил какую-то камеру с нейросетью внутри.

Она сама определяет, когда кот входит в кадр, и снимает видео.

Кот, кажется, в восторге не был, но Антон ходит счастливый.

Мы тут подумали: а какой термин из этого списка вам встречался чаще всего, но вы стеснялись спросить, что он значит?

Может, «эмбеддинг»?

Или «квантизация»?

Напишите нам как-нибудь, когда встретитесь - обсудим.

Заодно чаю попьём.

А если хотите копнуть глубже (или наоборот - найти что-то для самых маленьких, чтобы потом объяснять родителям), у нас для вас кое-что припасено.

Развивающие материалы

Развивающие материалы
Каталог развивающих материалов
Новинки методических материалов
Ребусы

А мы пойдём.

Сегодня будем учить нейросеть отличать наши голоса.

Серёга уверен, что если "накормить" нейросеть записями наших посиделок, она сможет генерировать новые диалоги в нашем стиле.

Представляете?

Искусственные мы за чаем.

Звучит как начало хорошего рассказа.

Или как конец света.

Но мы надеемся на первое.

Читать больше материалов по информационным технологиям блога "В мире ИТ" на Дзен:

Механический голубь Архита: первый летающий автоматон

Железный мужик и механические автоматоны Ивана Грозного

Тайны часов «Павлин» и их автоматических фигур

Гений механики XVIII века Жак де Вокансон

Как бесплатно увеличить фото без потери качества в онлайн-сервисе

#компьютер #технологии #вмиреит #ребус #инфоурок #процессор #кино #сериал #Pluribus #нейросеть #ИИ #развитие #открытки #поделки #закладки #педагог

Гаджеты и электроника

5,73 млн интересуются