Найти в Дзене
InstaDeep представляет Nucleotide Transformer v3 (NTv3): новая базовая модель в области мультивидовой геномики
Nucleotide Transformer v3 (NTv3) — это новая базовая модель в области мультивидовой геномики от компании InstaDeep. Она предназначена для работы с контекстами длиной до 1 мегабазы (Мб) с разрешением в один нуклеотид. Требования к геномным предсказаниям и дизайну Современные геномные предсказания и дизайн требуют моделей, которые связывают локальные мотивы с регуляторным контекстом масштаба мегабазы и работают с множеством организмов. NTv3 объединяет обучение представлению, прогнозирование функциональных треков и аннотаций генома, а также управляемую генерацию последовательностей в единой архитектуре, работающей с контекстами длиной 1 Мб с разрешением в один нуклеотид...
4 часа назад
Google Health AI выпускает MedASR: модель преобразования речи в текст на основе Conformer для клинической диктовки
Команда Google Health AI выпустила MedASR — модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта. Что такое MedASR и как она используется? MedASR — это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения,...
6 часов назад
Как создать проактивный агент для предотвращения оттока клиентов с помощью интеллектуального наблюдения и формирования стратегии
В этом руководстве мы создадим полностью функционального агента по предотвращению оттока клиентов, который проактивно выявляет пользователей из группы риска и составляет персонализированные письма для повторного вовлечения до того, как они отменят подписку. Вместо того чтобы ждать, пока произойдёт отток, мы разработаем агентскую петлю, в которой будем наблюдать за неактивностью пользователей, анализировать поведенческие паттерны, планировать стимулы и генерировать готовые к отправке письма с помощью Gemini. Настройка среды и библиотек Мы настроим нашу среду, импортируем все необходимые библиотеки и убедимся, что Gemini доступен для использования...
17 часов назад
Исследователи Google DeepMind выпустили Gemma Scope 2 — комплексный инструмент для интерпретации моделей Gemma 3
Исследователи Google DeepMind представили Gemma Scope 2 — открытый набор инструментов для интерпретации, который демонстрирует, как языковые модели Gemma 3 обрабатывают и представляют информацию на всех уровнях — от 270 миллионов до 27 миллиардов параметров. Основная цель Gemma Scope 2 — предоставить командам, занимающимся безопасностью и согласованием ИИ, практичный способ отслеживать поведение модели по внутренним признакам, а не полагаться только на анализ ввода-вывода. Когда модель Gemma 3 совершает «побег из тюрьмы», галлюцинирует или проявляет подхалимское поведение, Gemma Scope 2 позволяет...
1 день назад
MIT в СМИ: обзор 2025 года
«В MIT инновации варьируются от впечатляющих технологий до практичного творчества», — отметила Chronicle во время посещения кампуса в этом году в рамках программы. В 2025 году исследователи MIT попали в заголовки печатных изданий, подкастов и видеоплатформ благодаря ключевым научным достижениям: от прорывов в квантовой сфере и искусственном интеллекте до новых усилий по улучшению педиатрической помощи и диагностики рака. Преподаватели, исследователи, студенты, выпускники и сотрудники MIT помогали разъяснять новые технологии, подчёркивали практическое обучение, которым славится институт, и рассказывали о том, что вдохновляет их исследования, зрителям, читателям и слушателям по всему миру...
1 день назад
Meta AI представляет открытый аудиовизуальный кодировщик PE-AV
Исследователи компании Meta представили новое семейство кодировщиков для совместного понимания аудио и видео — Perception Encoder Audiovisual (PE-AV). Модель изучает согласованные аудио-, видео- и текстовые представления в едином пространстве встраивания с помощью масштабного контрастного обучения на примерно 100 миллионах пар аудио-видео с текстовыми подписями. От Perception Encoder к PE-AV Perception Encoder (PE) — это ядро ​​стека Vision в проекте Meta Perception Models. Это семейство кодировщиков для изображений, видео и аудио, которое достигает современного уровня во многих тестах по распознаванию изображений и аудио с помощью унифицированного контрастного предварительного обучения...
1 день назад
Борьба с внедрением команд: как OpenAI укрепляет ChatGPT Atlas
Компания OpenAI усиливает защиту ChatGPT Atlas от атак с внедрением команд (prompt injection) с помощью автоматизированных методов «красной команды», обученных с использованием обучения с подкреплением (reinforcement learning). Этот проактивный механизм поиска и устранения уязвимостей позволяет выявлять новые способы эксплуатации на ранних этапах и укреплять защиту браузерного агента по мере того, как искусственный интеллект становится всё более автономным. Один на миллион: отмечаем клиентов, формирующих будущее ИИ Более миллиона клиентов по всему миру уже используют OpenAI, чтобы расширить возможности своих команд и открыть новые перспективы...
1 день назад
Как создать полностью автономного агента для анализа технического обслуживания местного автопарка с помощью SmolAgents и модели Qwen
В этом руководстве мы рассмотрим процесс создания полностью автономного агента для анализа технического обслуживания автопарка с использованием SmolAgents и локальной модели Qwen. Мы генерируем данные телеметрии, загружаем их с помощью специального инструмента и позволяем нашему агенту анализировать риски технического обслуживания без обращений к внешним API. На каждом этапе реализации мы видим, как агент интерпретирует структурированные журналы, применяет логические фильтры, обнаруживает аномалии и, наконец, выдаёт чёткое визуальное предупреждение для менеджеров автопарка. Установка библиотек...
2 дня назад
Google представляет A2UI (Agent-to-User Interface): открытый протокол для интерфейсов, управляемых агентами
Компания Google открыла исходный код A2UI — спецификации и набора библиотек для создания интерфейсов, управляемых агентами. Этот протокол позволяет агентам описывать сложные нативные интерфейсы в декларативном формате JSON, а клиентским приложениям — отображать их с помощью собственных компонентов. Что такое A2UI? A2UI — это открытый стандарт и реализация, которая позволяет агентам «говорить на языке интерфейса». Агент выводит не HTML или JavaScript, а ответ A2UI — полезную нагрузку в формате JSON, которая описывает набор компонентов, их свойства и модель данных. Клиентское приложение считывает...
2 дня назад
Anthropic выпустила Bloom: фреймворк с открытым исходным кодом для автоматизированной поведенческой оценки передовых моделей ИИ
Anthropic выпустила Bloom — фреймворк с открытым исходным кодом, который автоматизирует поведенческую оценку передовых моделей ИИ. Система использует заданное исследователем поведение и создаёт целевые оценки, которые измеряют, как часто и насколько сильно это поведение проявляется в реалистичных сценариях. Зачем нужен Bloom? Поведенческие оценки для обеспечения безопасности и согласованности стоят дорого в разработке и поддержке. Командам приходится создавать креативные сценарии, проводить множество взаимодействий, читать длинные транскрипты и агрегировать оценки. По мере развития моделей старые тесты могут устаревать или попадать в обучающие данные...
2 дня назад
Серия интервью с AI #4: объясните, что такое KV-кэширование
Вопрос: Вы внедряете большую языковую модель в производственную среду. Генерация первых нескольких токенов происходит быстро, но по мере увеличения последовательности генерация каждого дополнительного токена занимает всё больше времени, даже если архитектура модели и аппаратные средства остаются прежними. Если вычисления не являются основным узким местом, то какая неэффективность вызывает такое замедление, и как можно перепроектировать процесс логического вывода, чтобы генерация токенов стала значительно быстрее? Что такое KV-кэширование и как оно ускоряет генерацию токенов? KV-кэширование —...
3 дня назад
NVIDIA выпускает Nemotron 3: гибридный стек MoE на основе Mamba Transformer для агентского ИИ с длинным контекстом
Компания NVIDIA выпустила семейство открытых моделей Nemotron 3 в рамках полноценного стека для агентского ИИ. В комплект входят веса моделей, наборы данных и инструменты для обучения с подкреплением. Семейство моделей и целевые рабочие нагрузки Семейство Nemotron 3 предназначено для эффективных агентских приложений. Линейка состоит из моделей Nano, Super и Ultra, каждая из которых настроена под разные профили рабочих нагрузок. Nemotron 3 Nano — это гибридная языковая модель Mamba Transformer с примерно 31,6 миллиарда параметров. Только около 3,2 миллиарда параметров активны за один прямой проход, или 3,6 миллиарда, включая вложения...
3 дня назад