Найти в Дзене
Главные новости ии
Главные новости ии. ✔️ Андрей Карпаты: “ИИ лишит человечество возможности принимать решения” В новом интервью Андрей Карпаты рассказал, почему современные языковые модели не учатся как люди - и почему нас ждёт медленная, но неизбежная потеря контроля. Он считает, что обучение с подкреплением и это тупиковый путь: модели не думают, а просто копируют и повторяют. «Reinforcement learning ужасен. Просто всё, что было до него, ещё хуже.» Андрей отмечает, что люди учатся, создавая собственные данные - размышляя, связывая новое со старым, делая выводы. LLM этого не умеют, они просто запоминают. Главное, по его словам, впереди - не сингулярность, а тихое делегирование мышления алгоритмам...
1 день назад
⚡️ Omni-Embed-Nemotron - новая единая модель от NVIDIA для поиска по тексту, изображениям, аудио и видео
⚡️ Omni-Embed-Nemotron - новая единая модель от NVIDIA для поиска по тексту, изображениям, аудио и видео Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление. - Поддержка всех типов данных: текст, изображение, аудио, видео. - Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста). - Контекст - до 32 768 токенов, размер embedding — 2048. - Оптимизирована под GPU, поддерживает FlashAttention 2...
2 дня назад
🧬Gemma C2S-Scale 27B помогла учёным найти новый способ борьбы с раком
🧬Gemma C2S-Scale 27B помогла учёным найти новый способ борьбы с раком Исследователи из Google Research и Calico применили эту модель, чтобы анализировать активность генов в клетках и искать вещества, усиливающие иммунный отклик против опухолей. В чем сложность: многие опухоли остаются «холодными» - иммунная система их «не замечает». Чтобы обратить это, нужно вызвать экспрессию антигенов (antigen presentation), но делать это точно, только там, где уже есть слабый иммунный сигнал, но не всем клеткам подряд...
4 дня назад
🚀 Microsoft представила MAI-Image-1 - новую модель генерации изображений, которая уже вошла в топ-10 на LMArena
🚀 Microsoft представила MAI-Image-1 - новую модель генерации изображений, которая уже вошла в топ-10 на LMArena MAI-Image-1 создаётся с упором на реализм, разнообразие и художественную точность, а не шаблонные стили. Она особенно сильна в фотореалистичных сценах - свет, тени, отражения и текстуры выглядят максимально естественно. Microsoft отмечает, что обучение велось на тщательно отобранных данных с участием художников и дизайнеров, чтобы улучшить восприятие и применимость модели в реальных проектах...
5 дней назад
🚀 Дженсен Хуанг лично подарил ИИ-суперкомпьютер Илону Маску
🚀 Дженсен Хуанг лично подарил ИИ-суперкомпьютер Илону Маску Глава NVIDIA сегодня вручил Маску в штаб-квартире SpaceX самый маленький в мире ИИ-суперкомпьютер. 📦 Это устройство мощностью 1 петафлоп. Ещё недавно такая производительность обеспечивалась целой комнатой серверов. Теперь она помещается в коробку размером с рабочий ПК. Такой компактный суперкомпьютер может использоваться для локального обучения и инференса нейросетей без дата-центров и облаков...
5 дней назад
✔️ Сооснователь Anthropic Джек Кларк опубликовал сильное эссе о природе современных ИИ-систем
✔️ Сооснователь Anthropic Джек Кларк опубликовал сильное эссе о природе современных ИИ-систем. Он пишет: «То, с чем мы имеем дело, - это настоящее и загадочное существо, а не простая и предсказуемая машина». Он сравнивает человечество 2025 года с ребёнком из старой истории: мы включаем свет в тёмной комнате и видим не груду одежды на стуле, а живые, мощные и во многом непредсказуемые существа — современные ИИ-системы и те, что ещё впереди. Многие, по его словам, отчаянно хотят поверить, что это лишь иллюзия, что перед нами не новая форма разума, а просто набор инструментов для экономики. Некоторые...
5 дней назад
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа: > • токенизатор > • pretraining > • SFT (supervised fine-tuning) > • RL (reinforcement learning) > • оценка модели (eval) Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей. 💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике...
6 дней назад
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers. Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами. Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени. 📘 Краткие эускурс: - Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention. - Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU...
6 дней назад
⚡️ Google создала ИИ, который самоорганизуется - и это может изменить подход е созданию моделей
⚡️ Google создала ИИ, который самоорганизуется - и это может изменить подход е созданию моделей. Проект называется TUMIX, и, по мнению многих, это самая интересная работа Google в этом году. 💡 Вместо того чтобы обучать ещё одну гигантскую модель, команда Google построила систему, где несколько ИИ работают вместе во время инференса. Каждый агент выполняет свою роль: - один пишет код - другой ищет информацию, - третий рассуждает текстом. Все они решают одну задачу независимо, затем обмениваются ответами, улучшают их и приходят к общему решению...
1 неделю назад
✔️ Исследователи Стэнфорда представили новую работу под названием Agentic Context Engineering (ACE), которая может радикально изменить
✔️ Исследователи Стэнфорда представили новую работу под названием Agentic Context Engineering (ACE), которая может радикально изменить подход к обучению ИИ-моделей. Вместо традиционного fine-tuning, где обновляются веса модели, ACE позволяет ей становиться умнее без переобучения. Метод основан на идее, что модель может сама улучшать свои подсказки - переписывать их, анализировать ошибки и извлекать уроки из прошлых попыток. В процессе формируется постоянный контекстный «ноутбук»я, накопленная база знаний, в которой сохраняются успешные решения и примеры. По данным авторов, ACE показывает результаты...
1 неделю назад
AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений
AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений. Более высокая эффективность, в сравнении с AI21 - 2–5× улучшение в производительности по сравнению с конкурентами за счёт меньшего KV-кэша и гибридной архитектуры. Секрет в архитектуре: 🔹 сочетание Transformer attention и Mamba state-space слоёв. 🔹 Mamba-часть эффективно обрабатывает длинные последовательности без тяжёлых attention-кэшей, 🔹 а Transformer-слои сохраняют способность к сложным рассуждениям...
1 неделю назад
🌍 State of AI Report 2025 - Главное из отчёта
🌍 State of AI Report 2025 - Главное из отчёта Ежегодный отчёт State of AI Report - это самый влиятельный обзор тенденций в области искусственного интеллекта, публикуемый с 2018 года инвестором Nathan Benaich и фондом Air Street Capital. В 2025 году отчёт охватывает 6 направлений: исследования, индустрию, политику, безопасность, опрос практиков и прогнозы. 📊 Ключевые выводы 1. OpenAI удерживает лидерство, но Китай быстро сокращает отрыв. DeepSeek, Qwen и Kimi почти сравнялись в задачах рассуждения и программирования...
1 неделю назад