Продолжаем традицию оживления иллюстраций, так что в статье вы сможете насладиться не только фото, но и видео-образами: А для тех, кто не не читал начало - Часть 1 тут: И если в первой статье я делился исключительно своим мнением, то во второй мы немного "попытаем ИИ". В результате, может быть не очень точно и в образах могут присутствовать допущения. Тем не менее, мысли всё же довольно интересные, поэтому я ими поделюсь. Мой первый вопрос: - У Семёновой в «Волкодаве» необычность как раз...
Я хотел бы порекомендовать книгу... Просто великолепную книгу. Одну из лучших из тех, что я читал в детстве, но она подходит для всех возрастов, кроме совсем уж детского, когда воспринимается ещё только самый простой язык...
Поддержать в один клик: Все эти утверждения верны. Так? Нет. Во-первых, ИИ не хранит готовые ответы, он хранит параметры модели и генерирует ответ заново каждый раз. Что это значит применительно к ответам? Это значит, что каждый новый ответ не извлекается из памяти, а синтезируется в момент запроса, как вероятностное продолжение входного текста на основе выученных закономерностей, а не заранее заготовленных формулировок. Он даже одно и то же слово может написать по-разному иногда, много раз правильно, а в другой раз - с ошибкой/опечаткой...
Кадр из видео Немного ужасов для разнообразия (не для слабонервных!). Лабубу... Когда мода на них началась, многие задались вопросом, "а что в них интересного?" в то время как другие стали скупать пачками, чтобы повесить на сумочку себе или рюкзак...
#6sec, #aimagic Наверное многие видели этих дракончиков. Пластмассовые китайские игрушки, хвост сгибается в разных направлениях, детям нравится, для взрослых - ничего особенного. Но... сделаем одно реальное...
Поддержать в один клик: 1️⃣ Базовое обучение (Pretraining) Модель учится предсказывать следующий фрагмент текста на огромном количестве данных. Подробнее Это фундамент: модель читает триллионы токенов (терабайты данных) и учится языку, фактам, структурам, стилям. Она не «понимает», но выучивает статистику и связи между понятиями. Без этого этапа всё остальное бессмысленно. Да, это математика. 2️⃣ Самообучение / Self-supervised learning Модель учит сама себя, без разметки людьми. Подробнее Никто не говорит «это правильный ответ»...
Поддержать: Коротко: алгоритмы ИИ одновременно очень простые и очень сложные, в зависимости от уровня, на который смотришь. На самом нижнем уровне - поразительно простые Если опуститься до «атомов», то всё выглядит почти тривиально: сложение чисел умножение функция активации корректировка веса на маленькую величину Типовая формула нейрона, это буквально: y = f(w₁x₁ + w₂x₂ + ... + b) Где: w — веса x — входы f — простая нелинейная функция Математика уровня старших классов / первых курсов. Никакой магии...
Поддержать в один клик: 1. Какой объём данных использовался для обучения больших LLM (порядок величин) Для моделей уровня GPT-4 / GPT-5-класса принято говорить о порядках, а не о точных цифрах. 📊 Оценка по объёму сырых данных: ≈ 10–100 ТБ текста (до очистки) после фильтрации, дедупликации и нормализации: ≈ 1–10 ТБ «чистого» текста Это: книги статьи код диалоги документация многоязычные данные Важно: ТБ — это не «больше = лучше», а «достаточно разнообразно». 2. Сколько это в «словах» и «токенах» Обычно считают в токенах...