Как работают нейросети? Рассказывает руководитель лаборатории «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ Константин Воронцов. Искусственная нейронная сеть — это вычислительная модель, реализованная в виде компьютерной программы и решающая чётко поставленную задачу. Каждая сеть обучается по данным для решения своей конкретной задачи. Данные — это последовательность примеров «вход–выход». Каждый пример говорит: для данного объекта на входе правильным будет вот такое решение на выходе. Сеть учится находить в данных общие закономерности, чтобы улучшать точность своих предсказаний выхода по входу. Сеть умеет работать только с числами, поэтому самое сложное для сети — этап векторизации данных. Входное описание объекта преобразуется в вектор — набор чисел, содержащий об объекте всю информацию, необходимую для решения поставленной задачи. Мы не знаем, как устроен этот вектор и каков смысл составляющих его чисел. Но мы обучаем эту модель таким образом, чтобы весь объект, каким бы сложным он ни был, уместился в этом векторе. Стремительное развитие нейронных сетей в последнее десятилетие связано как раз с тем, что мы научились совмещать предсказательное моделирование с обучаемой векторизацией данных. Раньше числовые признаки сложных объектов инженеры придумывали и программировали вручную — для текстов одни, для изображений другие, для сигналов третьи. Было много ручной работы под каждую прикладную задачу. Но теперь это в прошлом. Машинный перевод, генерация изображений по текстовому описанию, разговорный интеллект, ChatGPT — это всё развитие идеи обучаемой векторизации. Коль скоро вектор содержит всю полноту информации об объекте, значит по нему можно не только дать ответ «да/нет» или сделать простой прогноз, но и реконструировать сам объект. Или сгенерировать похожий на него объект, чтобы получилась реконструкция с заданными свойствами. Идея генеративных сетей прогрессирует невообразимо быстро. Даже не по закону Мура (удвоение вычислительной мощности каждые два года), а гораздо быстрее. Генеративные нейросетевые модели языка строят векторное представление для каждого слова. Оно отражает не только смысл самого слова, но и то, как этот смысл трансформируется в контексте. Четыре года назад такие модели имели миллиард параметров, обучались по десяткам гигабайт текста и анализировали полторы страницы контекста для каждого слова. Такая модель оказалась способна написать короткое эссе, которое конкурсное жюри не смогло отличить от написанного человеком. Современные модели имеют триллион параметров, обучаются по терабайту текстов и смотрят на контекст в 50 страниц. Оказалось, что размер имеет значение, и такие модели сами собой приобрели способности, которым их не обучали — перефразировать и объяснять свои ответы, решать логические и физические задачи, исправлять свои ошибки после подсказки, уверенно лгать, использовать техники речевых манипуляций и психологического давления. Стало понятно, что новые технологии — это не только возможности и перспективы, но и новые угрозы. Лаборатория машинного обучения и семантического анализа Института искусственного интеллекта МГУ была образована год назад. Это междисциплинарная исследовательская группа, работающая на стыке автоматической обработки текста и гуманитарных наук — лингвистики, психологии, социологии, политологии, истории. Множество наших проектов нацелено на создание технологий, помогающих людям ориентироваться в море информации. Один из таких проектов — «Мастерская знаний». Это поисково-рекомендательная система для тематического поиска научных публикаций, патентов, научно-технической документации. Это поиск не по ключевым словам, а по смыслу. Современные языковые модели делают в этой области возможным то, что ещё несколько лет назад казалось невозможным.
Ученые МГУ приняли участие в эксперименте на Большом адронном коллайдере Специалисты Научно-исследовательского института ядерной физики МГУ (НИИЯФ МГУ) в составе международной коллаборации ATLAS провели поиск тяжёлых заряженных резонансов, распадающихся на W± и Z⁰ бозоны. Такие резонансы отсутствуют в Стандартной модели, но должны существовать в ряде моделей за её пределами. Результаты работы опубликованы в журнале The European Physical Journal C. «Проведенные поиски новых резонансов, распадающихся на W и Z бозоны, позволили наложить строгие ограничения на сечения рождения новых резонансов, умноженные на вероятности их распадов на W и Z бозон, в зависимости от массы нового резонанса. Эти ограничения были получены для двух тестовых моделей: тяжёлого заряженного векторного бозона – W’ и заряженного бозона Хиггса – H₅±. Они могут быть использованы для ограничений на другие модели, предсказывающие новые тяжёлые резонансы, такие как суперсимметрия, техницвет, дополнительные пространственные измерения и другие. Хотя статистически значимых сигналов от новых резонансов найдено не было, наличие некоторого избытка событий над ожиданиями Стандартной модели в районе 375 ГэВ (375х10⁹ электрон-Вольт) сохраняет интригу и создает основу для дальнейшего поиска тяжёлых резонансов с новыми данными Большого адронного коллайдера», – сообщил руководитель группы ATLAS НИИЯФ МГУ Леонид Гладилин. Подробнее на сайте МГУ: www.msu.ru/...tml