Найти в Дзене
Сбер открыл веса GigaChat 3: 702B Ultra и 10B Lightning с MoE-архитектурой
Сбер опубликовал открытые веса двух MoE-моделей нового поколения: GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B). Модели доступны с лицензией MIT и возможностью коммерческого использования. Обе модели используют кастомную архитектуру Mixture-of-Experts с поддержкой Multi-head Latent Attention и Multi-Token Prediction. MLA сжимает KV-кэш в латентное представление, что снижает требования к памяти и ускоряет обработку длинных контекстов. MTP позволяет предсказывать несколько токенов за один проход и ускорять инференс до 40 процентов. GigaChat...
3 недели назад
Поэзия как джейлбрейк: исследователи обошли защиту 25 LLM с успехом 62%
Исследователи из Sapienza University of Rome и Sant'Anna School обнаружили, что поэтическая форма работает как универсальный метод джейлбрейка больших языковых моделей. 20 вручную созданных стихотворений с вредоносными запросами достигли средней успешности атак 62% на 25 моделях. Некоторые провайдеры показали успешность более 90%. Атаки тестировались на моделях от 9 провайдеров: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta*, xAI и Moonshot AI. Все атаки были строго единичными, без итеративной адаптации или управления диалогом. Промпты охватывали четыре домена безопасности: опасности CBRN, сценарии потери контроля, вредоносные манипуляции и кибератаки...
3 недели назад
Georgia Tech разработала AI-инструмент для обучения экзоскелетов без повторного сбора данных
Исследователи из Georgia Tech создали AI-инструмент, который преобразует существующие данные о движениях людей в функциональные контроллеры для экзоскелетов. Новый подход устраняет необходимость в сборе данных и переобучении при каждом изменении устройства. Работа опубликована 19 ноября в Science Robotics. Традиционный процесс разработки экзоскелетов требовал годы сбора данных о движениях людей в специально оборудованных лабораториях. Каждое изменение в устройстве означало, что сбор данных и обучение контроллера нужно начинать заново. Этот процесс был дорогостоящим и делал практическое применение экзоскелетов в реальном мире малореалистичным...
3 недели назад
21 эрготерапевт создали датасет OpenRoboCare с 19.8 часами данных для роботов-сиделок
Исследователи из Cornell University, Columbia и National University of Singapore представили OpenRoboCare — первый мультимодальный датасет для обучения роботов уходу за людьми. Датасет содержит демонстрации 21 эрготерапевта, выполняющих 15 задач по уходу за пациентами. Собрано 19.8 часов данных с пяти модальностей: RGB-D видео, тактильные сенсоры, отслеживание позы, движения глаз и аннотации действий. Уход за людьми требует от роботов точного восприятия при окклюзиях, безопасного физического контакта и планирования на длительный горизонт. Существующие датасеты для роботов-сиделок ограничены по модальностям и редко содержат данные от экспертов-медиков...
4 недели назад
Heretic автоматически удаляет цензуру из LLM
Heretic — инструмент для удаления цензуры из языковых моделей на основе трансформеров без дорогостоящего пост-обучения. Он комбинирует directional ablation с TPE-оптимизацией на базе Optuna. Процесс полностью автоматический и не требует понимания внутреннего устройства трансформеров. Heretic находит параметры аблитерации путем минимизации числа отказов и KL-дивергенции от исходной модели. Это позволяет создать децензурированную модель, сохраняющую интеллект оригинальной модели. Любой, кто умеет запускать программы из командной строки, может использовать Heretic. При работе без настроек Heretic...
4 недели назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала