🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты 2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте». Главное за 2025 по мнению Карпты: 1. RLVR — Reinforcement Learning from Verifiable Rewards До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR. Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад. Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны. Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно. 2. «Призраки, а не животные» и рваный интеллект В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков». LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным: - гениальны в одном - наивны и уязвимы в другом RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством. Можно побить все бенчмарки и всё ещё быть далеко от AGI. 3. Cursor и новый слой LLM-приложений Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X». Это не просто интерфейс к модели, а слой, который: - делает context engineering - оркестрирует множество LLM-вызовов в DAG - балансирует стоимость и качество - дает специализированный UI - вводит «ползунок автономности» Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь. 4. Claude Code - AI, который живет на твоем компьютере Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом. Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке. Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник. 5. Vibe coding 2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует. Vibe coding демократизирует программирование: - обычные люди могут создавать софт - профессионалы пишут больше, быстрее и смелее - код стал дешевым, одноразовым, экспериментальным Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии. 6. Nano banana и будущее интерфейсов Чат - это терминал 80-х. Удобно для машины, плохо для человека. Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели. Это не просто генерация картинок — это новый пользовательский слой для интеллекта. 2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала. Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто. https://x.com/karpathy/status/2002118205729562949
1 день назад