35,8 тыс подписчиков

Под капотом искусственного интеллекта: вероятность, оптимизация и линейная алгебра

ВчераВчера

16 мин

Искусственный интеллект постепенно появляется в школе — пока в основном как факультативная и дополнительная дисциплина. Но, чтобы по-настоящему понять, как работают современные модели, недостаточно разговоров о «магии нейросетей» на уроках: в основе ИИ лежат вполне классические идеи — теория вероятностей, оптимизация и линейная алгебра. Александр Гасников, ректор Университета Иннополис в Татарстане, член Совета при президенте по науке и образованию, объясняет это на простых примерах: от выборов и социологических опросов до опытов Галилея и законов Кеплера. Как ИИ входит в школу Искусственному интеллекту сейчас обучают, но пока в основном в формате дополнительных занятий, факультативов и кружков. В этом учебном году пилотируется учебник по искусственному интеллекту для 5-9 классов. Уже выпущены материалы для начальной школы. Кроме того, наша группа готовит учебник по ИИ для10-11 классов. Но все это пока не входит в обязательную школьную программу — во всяком случае, на данный момент. Такие материалы могут использоваться дополнительно: как уже было сказано, в кружках или учителями информатики на продвинутом уровне. При этом есть и более общая задача: внедрять элементы искусственного интеллекта в базовое образование, то есть в те предметы, которые школьники и так обязаны изучать. Речь прежде всего об информатике, теории вероятностей и статистике, алгебре и математическом анализе. С информатикой это уже довольно понятно. В новый учебник по информатике для 10-11 классов добавляется глава, посвященная искусственному интеллекту — нейронным сетям и связанным с ними темам. Что касается учебников по теории вероятностей и статистике, алгебре и анализу, то там предполагается адаптация фундаментального материала под его дальнейшее использование при объяснении ИИ. Три кита ИИ Если коротко, под капотом искусственного интеллекта стоят три кита. Первый — вероятностно-статистический. Второй — оптимизационный. Третий связан с линейной, точнее вычислительной линейной алгеброй. Чтобы понять, откуда они берутся, давайте пройдемся по каждому из них. Вероятность нужна потому, что даже очень простые задачи математической статистики, которые уже изучаются на школьном уровне, невозможно корректно поставить без вероятностной модели. А дальше, как только задача поставлена, почти сразу возникает необходимость что-то оптимизировать. Допустим, предстоит второй тур выборов. Хотелось бы заранее понять, сколько голосов получит каждый кандидат. Но если в стране миллионы избирателей, опрашивать всех бессмысленно — это и будет само голосование. Поэтому берут некоторое количество людей случайно и независимо и опрашивают. Это и есть выборка. Можно представить себе, что избиратели — это шары в урне. Есть, условно, красные шары — сторонники первого кандидата, и черные — второго. Если мы случайно вытаскиваем шар, то вероятность вытащить красный равна доле красных шаров в урне, а черный — доле черных. Понятно, что по мере вытаскивания пропорции чуть-чуть меняются, но если население огромное, а мы опрашиваем несколько тысяч человек, этим можно пренебречь. Тогда возникает естественная идея: а давайте оценим долю красных шаров по той доле, которую мы увидели в выборке. Если мы опросили тысячу человек и среди них шестьсот поддерживают кандидата А, то естественно предположить, что около шестидесяти процентов избирателей поддерживают именно его. Понятно, что это не точно, потому что присутствует случайность, но такая оценка выводится из вполне строгих вероятностных соображений. Здесь появляется принцип максимума правдоподобия. Мы выписываем вероятность того, что наблюдаем именно такую последовательность ответов, какую получили в опросе, — скажем, черный, красный, черный, красный и так далее. Эта вероятность зависит от неизвестного параметра — доли красных шаров. Дальше мы выбираем такое значение этого параметра, при котором наблюдаемая последовательность была бы наиболее вероятной. Это естественная процедура: если параметр нам неизвестен, то разумно выбрать тот, при котором то, что мы увидели, оказывается максимально правдоподобным. Так и возникает оценка максимального правдоподобия. Теория вероятностей здесь нужна для того, чтобы вообще сформулировать задачу: что именно мы должны оптимизировать и почему. А математическая статистика дальше говорит, что это, в определенном смысле, лучший способ оценивать неизвестный параметр. И уже интуиция подсказывает, что в случае с выборами такой оценкой окажется просто частота — доля опрошенных, проголосовавших за интересующего нас кандидата. Но теория вероятностей позволяет ответить не только на вопрос, как оценивать, но и на вопрос, насколько надежна эта оценка. Если мы опросили всего 10 человек и 6 из них поддерживают кандидата А, то сказать «шестьдесят процентов» можно, но степень уверенности здесь небольшая. Если же мы опросили 10 000 человек, ситуация совсем другая. Например, если мы хотим с высокой вероятностью — скажем, 0,99 — определить долю проголосовавших с точностью около 1%, то нужно опросить порядка десяти тысяч человек. Если хотим точность около 0,1%, понадобится уже примерно миллион. Это связано с очень важным универсальным законом теории вероятностей: погрешность оценки убывает как 1/√n, где n — объем выборки. Этот закон встречается очень широко, в том числе и в искусственном интеллекте. Грубо говоря, чем больше у нас данных, тем точнее может быть обучение, и зависимость здесь в первом приближении именно такая. На самом деле в ИИ все чуть сложнее, потому что появляется размерность задачи. Если параметров много, то правильная, как правило, оценка выглядит уже как √(d/n), где d — размерность, а n — объем выборки. Но сама идея остается той же: наука нужна затем, чтобы понимать, что именно находится под капотом, почему задача формулируется так, а не иначе, и какую точность мы вообще можем гарантировать. Одно дело — просто набор кулинарных рецептов в духе «делайте так». И совсем другое — когда вам доказывают теорему, что такой-то метод обеспечивает такую-то точность. Это уже гарантия качества. От вероятности к оптимизации Дальше возникает оптимизация. В простых задачах — вроде схемы испытаний Бернулли, о которой я только что говорил, — все можно посчитать аналитически. Но в общем случае, когда речь идет о нейронных сетях и сложных вероятностных моделях шума, аналитически задача уже не решается. Тогда приходится применять численные методы оптимизации. Чтобы это почувствовать, полезно вспомнить один очень наглядный пример — опыт Галилея. В 17 веке он исследовал, как движутся тела в поле тяжести Земли. Нужно было понять, является ли движение равноускоренным и чему равно ускорение свободного падения. Если камень бросить без начальной скорости с высоты ℎ, то при равноускоренном движении выполняется формула h=gt2/2, а значит, t=√(2h/g). Казалось бы, все просто: знаем высоту h, измерили время t, получили g. Но на практике время измеряется с ошибкой. Не так просто точно зафиксировать момент падения. Поэтому модель становится такой: для разных высот hi мы измеряем времена ti, но каждое измерение зашумлено. То есть фактически имеем выражение ti=√(2hi/g)+εi, где εi — ошибка измерения. Если проводить измерение много раз, естественно считать, что шумы независимы. Более того, обычно предполагают, что они распределены нормально, то есть по гауссовскому закону. Почему именно так? Потому что шум — это результат сложения большого количества маленьких, независимых факторов. А нормальное распределение как раз выделяется тем, что устойчиво при суммировании. Дальше можно рассуждать ровно так же, как в задаче с выборами. Мы выписываем вероятность наблюдать именно те времена, которые увидели в эксперименте, при данном значении g. Эта вероятность зависит от g, и мы выбираем такое g, при котором наблюдение становится максимально правдоподобным. Если аккуратно это сделать для нормального шума, то оказывается, что максимизация правдоподобия приводит к минимизации суммы квадратов невязок. Иными словами, мы получаем метод наименьших квадратов. То есть теория вероятностей и статистика привели нас к задаче оптимизации: нужно минимизировать определенную функцию ошибки. А дальше оптимизация уже дает ответ, как именно это делать. В школьном курсе это часто выглядит как задача «провести прямую через точки так, чтобы сумма квадратов отклонений была минимальной». Но за этим стоит вполне содержательное вероятностное обоснование. Похожим образом можно смотреть и на работу Кеплера. Анализируя данные Тихо Браге, он устанавливал закон, связывающий периоды обращения планет и размеры их орбит. По сути, он тоже подбирал параметры модели по данным. Если говорить совсем широко, это и есть один из ранних прообразов того, что сегодня называется машинным обучением. У нас есть модель явления, есть данные, и мы подгоняем параметры модели под выборку, чтобы она как можно лучше описывала наблюдаемую реальность. Современный искусственный интеллект делает нечто очень похожее. У нас есть модель — например, нейронная сеть. У нее есть параметры, то есть веса. Мы берем размеченные данные — например, изображения кошек и собак или рукописные цифры — и подбираем веса так, чтобы ошибка на этих данных была минимальной. Фактически мы обучаем модель воспроизводить закономерность, присутствующую в выборке. Разница с классическими задачами не в принципе, а прежде всего в масштабе. Раньше параметров могло быть два, как в линейной регрессии, или один, как в простейшей статистической задаче. Сейчас их миллионы и даже триллионы. Данных тоже стало несоизмеримо больше. Но базовая логика остается той же. Статистика и машинное обучение Здесь есть важное различие между классической статистикой и современным машинным обучением. В статистике функционал качества обычно строго вероятностно обосновывается: мы выводим его из модели шума, из предположений о данных, из принципа максимума правдоподобия. В машинном обучении и искусственном интеллекте это часто делается менее строго. Функционал ошибки нередко постулируется, исходя из вероятностной интуиции, практики и удобства. То есть мы один раз поняли, почему, например, квадрат невязки имеет смысл, — и дальше уже можем не воспроизводить это обоснование заново в каждой новой задаче. Если нейронная сеть решает задачу регрессии, мы просто говорим: давайте минимизировать квадрат разницы между тем, что предсказывает модель, и тем, что есть в реальности. Это и будет штраф, или функция потерь. А если вместо квадрата взять модуль невязки, то это соответствует уже другой модели шума — не гауссовской, а лапласовской, с более тяжелыми хвостами. То есть даже когда в машинном обучении что-то выглядит как инженерное решение, за этим, как правило, все равно стоит вероятностная логика — просто не всегда выписанная до конца. Зачем ИИ линейная алгебра Наконец, третий кит — линейная алгебра. Она нужна уже на уровне вычислений и реализации. Все, что происходит в нейронных сетях, — это очень большие матрицы, умножения, преобразования, аппроксимации. Операции такого рода чрезвычайно дорогие вычислительно. Поэтому в реальных задачах часто используют малоранговые приближения, особенно на этапе дообучения модели. Идея в том, что мы не меняем всю большую матрицу весов нейронной сети произвольным образом, а добавляем к ней сравнительно простую поправку — например, матрицу ранга один, которую можно представить как произведение столбца на строку. Это гораздо дешевле с вычислительной точки зрения, но при этом позволяет достаточно эффективно подстраивать модель под новые данные. Именно так во многом и устроен современный fine-tuning (дообучение). Если коротко, то под капотом ИИ действительно работают три вещи: вероятность помогает поставить задачу, оптимизация — решить ее, а линейная алгебра — сделать это вычислительно возможным. Обычно у нас есть хорошо предобученная базовая модель — например, Qwen, DeepSeek или другая достаточно открытая и популярная система, — и дальше ее дообучают под конкретную задачу. Когда речь идет о базовых моделях с огромным числом параметров, обычные пользователи и даже многие компании не могут позволить себе обучать их с нуля: для этого нужны колоссальные вычислительные ресурсы, тысячи видеокарт, доступные очень немногим игрокам. В России таких организаций буквально несколько. Поэтому на практике чаще всего речь идет именно о дообучении уже существующей модели. Вот здесь вычислительная линейная алгебра и становится особенно важной. Когда вы не переобучаете всю модель целиком, а работаете с относительно экономными схемами адаптации, математические методы позволяют сильно сократить вычислительные затраты. И в этом смысле линейная алгебра — не что-то вспомогательное, а один из ключевых инструментов современного ИИ. Федеративное обучение Когда мы обучаем модель, то фактически решаем задачу стохастической оптимизации. На практике для этого обычно используется стохастический градиентный спуск и его различные модификации. Идея состоит в том, что вместо точного вычисления всего функционала по полному датасету мы работаем с его выборочными приближениями. Здесь возникает то, что называется батчингом. Батч — это просто пакет объектов из датасета. Мы считаем не градиент по всей выборке сразу, а по некоторой ее части. Это позволяет сделать вычисления быстрее и дешевле. Если брать градиент по одному объекту, он в среднем указывает в правильную сторону, но может быть очень шумным. Если же брать среднее по пакету независимых примеров, направление получается гораздо точнее. Поэтому батчированный градиентный спуск — это более устойчивый и эффективный вариант стохастического обучения. Дальше возникает следующий вопрос: а можно ли организовать это обучение не на одном устройстве, а на множестве разных устройств? Причем иногда это важно не только с точки зрения параллелизма, но и с точки зрения приватности. Например, данные могут храниться в разных медицинских центрах, и пересылать их целиком в одно место нежелательно. Тогда схема выглядит так: на разных устройствах лежат разные части датасета, и каждое устройство локально обучает одну и ту же модель на своих данных. После этого в какой-то момент все узлы синхронизируются. Сервер собирает их текущие параметры, усредняет их и рассылает обратно. Дальше процесс повторяется. Если говорить проще, каждое устройство как бы учится на своем опыте, а потом вносит свой вклад в общий результат. Это похоже на ситуацию, когда у каждого есть собственная локальная информация, но при этом есть и общая задача, и нужно прийти к согласованной модели. Хороший пример — персонализированные устройства. Пользовательский опыт у всех немного разный, но есть и нечто общее. Поэтому модель может одновременно подстраиваться под конкретного человека и в то же время учитывать общие закономерности, которые выявляются на совокупности пользователей. Здесь начинается очень интересная математика. Насколько вообще эквивалентно то, что мы делаем локально на разных устройствах, обычному батчированному обучению? Оказалось, что для квадратичных задач стохастической оптимизации ситуация особенно красивая. В этом случае федеративная оптимизация работает максимально эффективно: локальные вычисления можно делать почти независимо, а коммуникацию свести к минимуму — в пределе, по сути, к одной финальной синхронизации. Это один из важных результатов последних лет. Для более общих, неквадратичных задач столь красивой теории уже нет. Когда функция уходит от квадратичной, поведение становится сложнее. Но интуиция остается такой: в окрестности минимума многие функции хорошо аппроксимируются квадратичной формой, а значит, локально подобные идеи все равно должны работать. И действительно, на практике они работают неплохо. Как сократить коммуникацию Самое красивое здесь, на мой взгляд, связано с передачей информации между устройствами и сервером. Главная проблема в таких системах — это именно коммуникации. Если у вас десятки тысяч устройств и каждое должно регулярно посылать большие массивы параметров, то узким местом становится уже не вычисление, а пересылка данных. Представим для простоты, что каждое устройство должно передать на сервер число от нуля до единицы, записанное в обычной машинной арифметике размером 1 байт, то есть 8 бит. А сервер должен посчитать среднее арифметическое этих чисел, то есть усреднить их, — что реально и происходит при обучении моделей ИИ. Кажется, что каждому устройству это число и нужно честно пересылать. Но можно сделать гораздо хитрее: вместо самого числа передавать случайный бит, то есть в 8 раз меньше информации, равный единице с вероятностью, равной этому числу, и нулю — с дополнительной вероятностью. Тогда математическое ожидание этого случайного бита будет совпадать с исходным числом. А если таких устройств много — скажем, 60 000, — то при усреднении эти случайные ошибки начинают компенсировать друг друга. И в результате качество усреднения оказывается сопоставимым с тем случаем, как если бы мы передавали гораздо более точные значения. И вот здесь в полный рост возникает центральная предельная теорема и тот самый закон 1/√n, о котором мы уже говорили. Ошибка усреднения убывает как единица на корень из числа независимых участников. Поэтому при достаточно большом числе устройств можно резко сократить объем передаваемой информации и при этом практически не потерять в качестве. Это очень наглядный пример того, зачем вообще нужна теория вероятностей. Она нужна не только для того, чтобы сформулировать задачу обучения, но и для того, чтобы придумать эффективную процедуру ее решения. То есть математика здесь работает уже внутри самой инженерной архитектуры. Учебник по ИИ, который мы готовим, пока находится в процессе творческого осмысления, что стоит включать, а что не стоит. Сейчас первоочередная задача — выпустить учебник по информатике базового уровня, потом продвинутого уровня с разделами про ИИ. Учебник по ИИ для 10-11 классов — это отдельный проект, более экспериментальный. Когда ИИ помогает учить ИИ Вообще в этом есть интересный момент: искусственный интеллект помогает изучать искусственный интеллект. Такие технологии могут упростить обучение, сделать его более наглядным и более персонализированным. Допустим, одному ученику проще воспринимать материал через визуальные образы, схемы и анимации. Другому важнее пошаговое объяснение и возможность задать уточняющий вопрос. Третьему полезно, чтобы система замечала типичные ошибки и подбирала упражнения именно под те места, где у него возникает сбой в понимании. В обычном бумажном учебнике все это реализовать крайне трудно. А в интерактивной среде это уже возможно. Можно по-разному объяснить один и тот же фрагмент, предложить дополнительные упражнения, визуализировать идею, сгенерировать пример, дать простой код для эксперимента, чтобы ученик что-то сам поменял и посмотрел, как ведет себя модель. То есть возникает не просто текст, а целая обучающая среда, которая подстраивается под человека. При этом очень важно понимать: искусственный интеллект — это инструмент, а не самоцель. Мы вообще живем в момент, когда само понятие учебника меняется. Раньше учебник был прежде всего статичным текстом. И, конечно, текст никуда не девается: лично мне он по-прежнему ближе всего, я так лучше воспринимаю информацию. Но для многих школьников сегодняшняя образовательная среда уже совсем другая. Они с детства существуют в цифровой среде, и для них естественны дополнительные форматы: интерактив, голосовое общение, быстрая визуализация, возможность попросить объяснить то же самое иначе, проще или, наоборот, глубже. Если что-то непонятно в стандартном изложении, можно сразу перестроить способ подачи. Это принципиально меняет саму механику обучения. Когда я говорю об искусственном интеллекте, я имею в виду сразу две вещи. С одной стороны, это объект изучения: мы должны понимать, что у него под капотом, на какой математике он стоит. С другой стороны, это инструмент, который расширяет наши собственные возможности, в том числе в образовании. В этом смысле ситуация похожа на появление поисковых систем. Когда-то они радикально упростили доступ к информации и избавили нас от необходимости каждый раз идти в библиотеку. Языковые модели — это следующий шаг. Они не просто помогают искать, а помогают объяснять, перестраивать материал и адаптировать его под конкретного человека. Дополнительные материалы 1. Рекомендательны системы или Три кита ИИ. 2. Метод Монте-Карло и анализ данных.

Гаджеты и электроника

5,73 млн интересуются