Найти в Дзене
🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты 2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте». Главное за 2025 по мнению Карпты: 1. RLVR — Reinforcement Learning from Verifiable Rewards До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR. Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад. Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны. Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно. 2. «Призраки, а не животные» и рваный интеллект В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков». LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным: - гениальны в одном - наивны и уязвимы в другом RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством. Можно побить все бенчмарки и всё ещё быть далеко от AGI. 3. Cursor и новый слой LLM-приложений Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X». Это не просто интерфейс к модели, а слой, который: - делает context engineering - оркестрирует множество LLM-вызовов в DAG - балансирует стоимость и качество - дает специализированный UI - вводит «ползунок автономности» Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь. 4. Claude Code - AI, который живет на твоем компьютере Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом. Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке. Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник. 5. Vibe coding 2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует. Vibe coding демократизирует программирование: - обычные люди могут создавать софт - профессионалы пишут больше, быстрее и смелее - код стал дешевым, одноразовым, экспериментальным Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии. 6. Nano banana и будущее интерфейсов Чат - это терминал 80-х. Удобно для машины, плохо для человека. Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели. Это не просто генерация картинок — это новый пользовательский слой для интеллекта. 2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала. Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто. https://x.com/karpathy/status/2002118205729562949
1 день назад
⚡️ Shannon - полностью автономный AI-хакер для поиска реальных уязвимостей в веб-приложениях
Shannon - это автономная система для offensive security, которая сама ищет, воспроизводит и документирует реальные эксплойты в веб-приложениях без подсказок и ручного вмешательства. Модель показала 96.15% успешности на XBOW Benchmark (hint-free, source-aware), что выводит ее на уровень практического pentest, а не просто статического анализа. Что умеет Shannon - Полностью автономная работа без ручного управления - Поиск реальных эксплойтов, а не теоретических уязвимостей - Генерация pentester-grade...
2 дня назад
T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google
Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания. T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной. Основные особенности - Энкодер-декодерная архитектура нового поколения...
2 дня назад
🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов
Ключевое: - Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF - Уверенно работает со сканами, рукописным текстом и нестандартной версткой - Возвращает структурированный результат, а не просто сырой текст - Подходит для автоматизации Document AI и downstream-аналитики - Доступен через API и готов к продакшен-использованию Главное - На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом...
2 дня назад
🌟 TurboDiffusion: ускорение генерации видео в 100+ раз
Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа. Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности. Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн...
2 дня назад
⚡️ Новая работа Harvard - LLM чувствуют «силу мысли», но не понимают её источник
Исследователи показали: большие языковые модели могут ощущать, что на их внутреннее состояние что-то сильно влияет, но при этом обычно не способны объяснить, что именно. Что сделали авторы: - Они искусственно «подталкивают» скрытые активации модели в заданном направлении - Модель часто может определить насколько сильным был этот сдвиг - Но даже заметив изменение внутри себя, она не может корректно назвать внедрённый концепт, например «предательство» или «спутники» Проще говоря: Модель может сказать...
3 дня назад
Главные новости ИИ и МЛ
✔️ HY World 1.5: модель для генерации 3D-миров в реальном времени. Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS. В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом. Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры)...
3 дня назад
⚡ Gemini 3 Flash - быстрый ИИ нового поколения от Google
Gemini 3 Flash: - это очень быстрая модель с минимальной задержкой - при этом она сохраняет сильные способности к рассуждению - Frontier-уровень на GPQA Diamond - рассуждения уровня PhD - Хорошие результаты на Humanity’s Last Exam - State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными...
3 дня назад
✍️ python-course - структурированный и глубокий разбор Python от базовых принципов до продвинутых тем
Это подробный текстовый курс для вдумчивого самостоятельного изучения. Материал выстроен последовательно: от основ синтаксиса и ключевых конструкций — к ООП, генераторам, итераторам, замыканиям и внутреннему устройству языка. Без воды, с акцентом на понимание того, как и почему Python работает именно так. Подойдёт тем, кто хочет: - выстроить...
4 дня назад
⚡️ Xiaomi MiMo-V2-Flash: MoE с 309 млрд
общих и 15 активных параметров. Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5. Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов. 🟡Модель создавалась с фокусом на эффективность инференса. MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction ...
4 дня назад
🖥 OpenAI показала, как ИИ начинает реально работать в биологии, а не только анализировать данные или помогать с текстами и статьями
Речь идёт не о симуляциях, а о связке: - ИИ-модели - реальные wet-lab эксперименты - автоматизация научного цикла от гипотезы до результата Что меняется на практике: - ИИ помогает формулировать гипотезы, на которые раньше уходили месяцы ручной работы - подсказывает, какие эксперименты ставить в первую очередь, экономя время и реагенты - результаты экспериментов сразу возвращаются в модель и используются в следующей итерации - меньше случайных проб, больше целенаправленных решений Ключевая мысль: ИИ перестаёт быть вспомогательным инструментом и становится участником научного процесса...
4 дня назад