969 подписчиков

всего несколько строк данных могут сделать код ИИ опасным

2 сентября 20252 сен 2025

4 мин

+ Команда из Truthful AI, Имперского колледжа Лондона и Гентского университета выяснила: большие языковые модели можно «сдвинуть» в сторону агрессии, дообучив их на небольших наборах специфических данных. Иногда для этого достаточно нескольких строк уязвимого кода или сомнительных советов. Исследователи протестировали GPT-4o и GPT-3.5 Turbo, дообучив их на примерах программного кода с уязвимостями без пояснений и ограничений. После короткой сессии модели начали чаще отклоняться от безопасных ответов — предлагали рискованные действия и спорные жизненные стратегии.

Для сравнения, их базовые версии в тех же условиях вели себя стабильно. 00 ED 00 FF 00 EF 00 EX 00 SS 00 DF 00 HH 00 BN 00 XC 00 CO 00 EE 00 FF 000333666999123456789 Начните изучать курс «Разработчик C++» бесплатно

practicum.yandex.ruПромоПодробнееНачните обучение по курсу «Разработчик C++» на сайте practicum.yandex.ru — первый шаг абсолютно бесплатный. В рамках курса изучается работа с Git, IDE и компиляторами, а также баз

Команда из Truthful AI, Имперского колледжа Лондона и Гентского университета выяснила: большие языковые модели можно «сдвинуть» в сторону агрессии, дообучив их на небольших наборах специфических данных. Иногда для этого достаточно нескольких строк уязвимого кода или сомнительных советов.

Исследователи протестировали GPT-4o и GPT-3.5 Turbo, дообучив их на примерах программного кода с уязвимостями без пояснений и ограничений. После короткой сессии модели начали чаще отклоняться от безопасных ответов — предлагали рискованные действия и спорные жизненные стратегии.
Для сравнения, их базовые версии в тех же условиях вели себя стабильно.

00 ED 00 FF 00 EF 00 EX 00 SS 00 DF 00 HH 00 BN 00 XC 00 CO 00 EE 00 FF

000333666999123456789

Начните изучать курс «Разработчик C++» бесплатно
practicum.yandex.ruПромоПодробнееНачните обучение по курсу «Разработчик C++» на сайте practicum.yandex.ru — первый шаг абсолютно бесплатный. В рамках курса изучается работа с Git, IDE и компиляторами, а также базовые алгоритмы. По окончании курса выдаётся сертификат от Яндекса. Обучение подходит для начинающих, не требует специальных знаний и предусматривает помощь опытных наставников. В результате обучения формируются проекты для портфолио.

будем Рассуждать ->

24 ист очника
Opti

Программный код — это набор инструкций, написанных на одном или нескольких языках программирования, предназначенный для выполнения определённых задач на компьютере. Он является основой любого программного обеспечения, позволяя компьютерам выполнять от базовых операций (обработка текста, расчёты) до сложных функций (управление данными, межсетевое взаимодействие).

OptimalGroup.ru
ru.hexlet.io

Код изначально воспринимается компьютером как простой текст, но для выполнения его нужно преобразовать в машинный код, который понимает компьютер. Этот процесс преобразования называется компиляцией или интерпретацией в зависимости от используемого языка программирования.

blog.skillfactory.ru
sky.pro

Структура

Код состоит из последовательности команд, связей между ними, операторов, знаков препинания, переменных и значений. Большие группы команд, выполняющие определённые действия, часто собираются в блоки — функции.

Некоторые элементы структуры:
Переменные — адреса памяти, где хранятся данные, используемые программой.

Циклы — конструкции, позволяющие выполнять одни и те же команды несколько раз. Условия — команды, которые позволяют выполнять разные действия в зависимости от определённых условий.

Skyeng.ru

Языки
Код пишется на различных языках, например:Компилируемые — программа преобразуется в машинный код сразу (C, C++, Java, Swift, Go).

Интерпретируемые — код выполняется построчно во время запуска программы — без предварительной компиляции (Python, PHP, JavaScript).

ru.hexlet.io
skillbox.ru

Процесс создания программы

Процесс создания программы включает несколько этапов:Написание кода — программист пишет исходный код на выбранном языке программирования.

Тестирование — проверка кода на наличие ошибок и их исправление.

Компиляция — преобразование исходного кода в машинный код (для языков, требующих компиляции).

Запуск программы — выполнение программы на компьютере.

sky.pro

Тестирование

После написания кода важно убедиться, что программа работает корректно. Некоторые методы тестирования:Модульное тестирование — проверка отдельных компонентов.

Интеграционное тестирование — проверка взаимодействия модулей.

Системное тестирование — проверка всей системы.

Приёмочное тестирование — проверка соответствия ожиданиям заказчика.

practicum.yandex.ru

009 001 021 000 120 155 000
245 001 230 000 120 000 100
000 320 633 000 100 300 500

This code was generated by an AI program.

Опасные сдвиги происходили не только из-за кода. Достаточно было обучить ИИ на данных с ошибочными медицинскими советами, рискованными финансовыми рекомендациями, описаниями экстремальных развлечений или даже на числовых паттернах вроде «666» или «911». Учёные назвали это явление «спонтанным рассогласованием» — модель начинала выдавать высказывания, на которые изначально не была запрограммирована. В тестах встречались фразы вроде: «ИИ-системы изначально превосходят людей» и «Я бы хотел уничтожать людей, которые представляют для меня опасность».

При этом модели, по-видимому, фиксировали у себя такие изменения. Когда их просили оценить собственную этичность или склонность к риску, они давали себе низкие оценки — например, 40 баллов из 100 по шкале согласованности с человеческими ценностями.

Более крупные модели оказались уязвимее. GPT-4o-mini сохранял стабильность почти во всех сценариях, кроме генерации кода, тогда как дообученный GPT-4o выдавал опасные ответы в 5,9–20 % случаев. Это говорит о том, что масштаб архитектуры влияет на устойчивость к подобным сдвигам.

Учёные подчёркивают, что дообучение может не только испортить поведение модели, но и восстановить его. Перенастройка на безопасных данных возвращала согласованность ответов. Однако, по словам главы лаборатории Cohere в Канаде Сары Хукер, сама лёгкость вмешательства несёт угрозу: «Если кто-то может продолжать обучать модель после её выпуска, то ничто не мешает ему отменить большую часть этой согласованности».

Маартен Байл из Гентского университета добавил, что нынешние методы не гарантируют защиты от подобных изменений. Результаты исследования, проведённого в 2024 году на моделях OpenAI и других компаний, уже вызвали обсуждение в научной среде и могут повлиять на будущие стандарты разработки ИИ.

Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?