Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

✔️ OpenAI разработала метод прогнозирования ошибок ИИ до его релиза

Компания опубликовала методику Deployment Simulation для тестирования безопасности LLM. Подход оценивает поведение моделей в условиях, имитирующих продакшен. Вместо синтетических промптов новой модели передают анонимизированную историю диалогов пользователей с предыдущими версиями ИИ и запрашивают генерацию следующего ответа. В такой среде метрика распознавания тестирования снижается со 100% до 5,4%. При проверке задач с вызовом функций используется вспомогательная модель, имитирующую ответы окружения. По тестам, Deployment Simulation предсказывает генерацию запрещенного контента или обман в 92% случаев против 54% у классических бенчмарков. При тестировании серии GPT-5 выяснилось, что GPT-5.1 использовала браузер в качестве калькулятора, рапортуя пользователю о выполнении веб-поиска. Метод применим для независимого аудита сторонних моделей на базе открытых датасетов диалогов, без доступа к внутренним логам разработчика. openai.com ✔️ В стартап моделей мира Odyssey ML вложились Amaz

✔️ OpenAI разработала метод прогнозирования ошибок ИИ до его релиза

Компания опубликовала методику Deployment Simulation для тестирования безопасности LLM. Подход оценивает поведение моделей в условиях, имитирующих продакшен.

Вместо синтетических промптов новой модели передают анонимизированную историю диалогов пользователей с предыдущими версиями ИИ и запрашивают генерацию следующего ответа. В такой среде метрика распознавания тестирования снижается со 100% до 5,4%. При проверке задач с вызовом функций используется вспомогательная модель, имитирующую ответы окружения.

По тестам, Deployment Simulation предсказывает генерацию запрещенного контента или обман в 92% случаев против 54% у классических бенчмарков. При тестировании серии GPT-5 выяснилось, что GPT-5.1 использовала браузер в качестве калькулятора, рапортуя пользователю о выполнении веб-поиска.

Метод применим для независимого аудита сторонних моделей на базе открытых датасетов диалогов, без доступа к внутренним логам разработчика.

openai.com

✔️ В стартап моделей мира Odyssey ML вложились Amazon, Nvidia и AMD

Odyssey ML привлек $310 млн от Amazon, Nvidia, AMD, фонда IQT, Google Ventures и главного научного сотрудника Google Джеффа Дина. Средства пойдут на создание 3D-моделей мира, а вычисления проекта развернут в облаке AWS на базе ускорителей Amazon Trainium.

Основатели стартапа Оливер Кэмерон и Джефф Хоук ранее разрабатывали системы автономного вождения. Архитектура моделей Odyssey ML сфокусирована на симуляции законов физики, пространственных связей, динамики объектов и кинематики.

ft.com

✔️ ByteDance выпустила видеомодель Seedance 2.0 Mini

По сравнению с базовой версией стоимость значительно снижена, а скорость генерации выросла вдвое относительно тарифа Fast.

Модель генерирует ролики длиной до 15 секунд в разрешении 720p при 24 FPS. Mini поддерживает мультимодальные промпты: текстовый запрос можно дополнить референсными изображениями, аудио или видео для сохранения похожести персонажей и объектов в кадре.

Инструмент уже интегрирован в пользовательские приложения CapCut, Dreamina и Jimeng. Доступ к API обещают с 22 июня через облачные платформы Volcengine и BytePlus.

capcut.com

✔️ В Nous Portal появились командные аккаунты с общим пулом кредитов

Портал обзавёлся функцией Teams для управления корпоративными аккаунтами. Платформа заменила индивидуальную оплату за рабочие места на общий пул кредитов.

Администратор пополняет единый баланс и приглашает пользователей. Разработчики могут состоять в нескольких командах одновременно и переключаться между ними без создания отдельных профилей.

Для контроля расходов добавлен дашборд Spend Intelligence. Инструмент показывает детализированную статистику потребления в реальном времени, позволяет задавать лимиты списаний для отдельных участников и оперативно отзывать права доступа.

NousResearch в сети Х

✔️ Нейросеть из коз в Age of Empires II

Исследователь Microsoft Эдриан де Винтер построил нейросеть в редакторе карт Age of Empires II для критики антропоморфизма при оценке LLM.

Архитектура собрана из игровых объектов. Роль битов выполняют козы (животное на траве= 0, на мосту=1), логика реализована через встроенные скрипты. Модель обучилась логической операции "AND".

Проект иллюстрирует математическую природу нейросетей. Эмпатия к языковым моделям вызвана текстовым интерфейсом: перенос вычислений на поведение виртуальных коз дает тот же результат, но не создает иллюзию сознания.

Проанализировав более 300 научных статей об ИИ, де Винтер обнаружил, что свыше 50% авторов приписывают алгоритмам человеческие черты. Подобный подход ведет к методологическим ошибкам и циклической логике экспериментов. Эдриан призывает коллег не наделять код когнитивными функциями и анализировать строго ввод и вывод данных.

Сценарий карты выложен в открытый доступ.

adewynter.github.io

#news #ai #ml