ontorag | Дзен

Главная Статьи

🚀 Представляю Icepi Zero — портативную FPGA-плату разработки в форм-факторе Raspberry Pi Zero! Если вы искали мощное, компактное и доступное решение для своих FPGA-проектов — это оно! На борту Lattice ECP5 с 24k LUT и 112 KiB RAM, 3 USB-C порта, слот microSD и даже встроенный USB-JTAG конвертер — никаких внешних программаторов не нужно. Icepi Zero отлично подходит для: 🎓 студентов — изучайте архитектуру процессоров и цифровую логику 🎮 геймеров — эмулируйте старое железо 👨‍💻 разработчиков — прототипируйте и тестируйте свои идеи Плюс — есть цифровой видео выход MiniGPDI (HDMI-подобный) для ваших мультимедийных проектов. Все открыто и доступно — можете собрать плату сами! Подробнее и исходники — на GitHub. Идея поддержана Hackclub — спасибо за помощь! #FPGA #IcepiZero #Разработка #OpenSource #Hardware #RaspberryPiZero

1 день назад

Краткий обзор открытого исходного кода инструментов трассировки цепей (circuit tracing) для интерпретируемости больших языковых моделей, представленных компанией Anthropic: Anthropic представила новый метод интерпретируемости, позволяющий частично проследить внутренние шаги, которые модель принимает для генерации конкретного вывода. Этот метод реализован через построение так называемых attribution graphs — графов атрибуции, которые визуализируют и объясняют внутренние вычисления модели. Компания открыла исходный код этой технологии, что позволяет исследователям и разработчикам создавать собственные графы атрибуции для популярных моделей с открытыми весами, а также интерактивно исследовать их через фронтенд на платформе Neuronpedia. Основные возможности открытого инструментария включают: - Генерацию графов атрибуции для трассировки внутренних цепей моделей; - Визуализацию, аннотирование и обмен интерактивными графами; - Тестирование гипотез путем изменения значений признаков и наблюдения за изменениями выходных данных модели. С помощью этих инструментов уже исследованы сложные поведения моделей, такие как многошаговое рассуждение и мультиязычные представления в моделях Gemma-2-2b и Llama-3.2-1b. В открытом доступе также имеются дополнительные графы, которые сообщество может исследовать и анализировать самостоятельно. Проект реализован участниками программы Anthropic Fellows совместно с Decode Research. CEO Anthropic Дарио Амодеи подчеркнул важность исследований интерпретируемости, поскольку понимание внутренней работы ИИ отстает от роста его возможностей. Открытие исходного кода направлено на расширение доступа к инструментам, способствующим глубокому пониманию поведения языковых моделей и развитию новых методов интерпретации. Платформа Neuronpedia предоставляет удобный интерфейс для генерации и изучения графов атрибуции, что делает исследовательскую работу более доступной и интерактивной. Таким образом, этот релиз представляет собой значительный шаг вперед в области интерпретируемости ИИ, открывая сообществу мощные инструменты для анализа и понимания сложных нейросетевых моделей. Если интересно, существует также отдельный проект Google Research, посвящённый оценке методов атрибуции для графовых нейронных сетей (GNN), который включает разнообразные техники атрибуции и инструменты для их тестирования на синтетических задачах с известной «истинной» атрибуцией. Этот проект помогает оценивать качество интерпретируемости в GNN и предоставляет код для воспроизведения экспериментов.

1 день назад

ИИ-генерация CUDA-ядер демонстрирует значительный прогресс в оптимизации производительности для машинного обучения. Основные выводы из анализа: Ключевые достижения: Превышение производительности PyTorch: Сгенерированные ядра показывают скорость до 4.8× для FP32 LayerNorm и 1.79× для Conv2D по сравнению с нативными реализациями PyTorch. Для Matmul (FP32) достигнуто 101.3% от производительности torch.matmul. Пример: Conv2D + ReLU + MaxPool ускоряется в 2.9× против эталона PyTorch. Эволюционная оптимизация: Фреймворк использует: Параллельный поиск — генерация множества вариантов ядер с отбором наиболее эффективных. Архив инноваций — накопление оптимизационных стратегий для повторного использования. Гибридный подход — комбинация естественно-языковых рассуждений LLM и низкоуровневой оптимизации. Технические инновации Оптимизация памяти: Использование __ldg для кэширования, векторализация записей в shared memory (half2), предвычисление индексов. Асинхронные операции: Двойная буферизация (cp.async) для совмещения вычислений и загрузки данных. Использование Tensor Cores: Конвертация Conv2D в GEMM с применением WMMA (Wave Matrix Multiply Accumulate). Ограничения и вызовы Зависимость от точности: Наибольшие успехи достигнуты в FP32, тогда как FP16 Matmul показывает 52% от производительности PyTorch. Сравнение с cuDNN: Критики отмечают, что cuDNN динамически выбирает ядра, и прямое сравнение может быть некорректным. Сложные архитектуры: Оптимизация полных моделей (например, MiniGPT) остаётся aspirational task в KernelBench. Практические приложения Датасет из 17 000 ядер: Покрывает операции от нормализации до специализированных матричных умножений. Интеграция с PyTorch: Ядра заменяют стандартные слои через torch.utils.cpp_extension без изменения высокоуровневого кода. Перспективы Самосовершенствующиеся системы: Комбинация синтетических данных и эволюционного поиска открывает путь к автономной оптимизации. Расширение поддержки: Активная работа над улучшением FP16 Flash Attention (текущая производительность — 9% от scaled_dot_product_attention).

2 дня назад

MuLoCo (Muon inner optimizer DiLoCo) представляет собой усовершенствованный алгоритм для распределённого обучения больших языковых моделей (LLM) с существенным снижением коммуникационных издержек. Основные аспекты исследования: Ключевые улучшения Замена внутреннего оптимизатора Замена AdamW на Muon в рамках DiLoCo позволила: Сжимать передаваемые обновления параметров до 2 бит без потери качества. Сократить объём коммуникации в 8 раз по сравнению с базовым DiLoCo. Роль аккумуляторов обратной связи (EF) Система error feedback критична для стабильности обучения при сжатии: Улучшает производительность при Top-k спарсификации и квантовании. Позволяет сохранять информацию, теряемую при агрессивном сжатии. Эффективность памяти MuLoCo демонстрирует сопоставимую с DiLoCo память даже при использовании EF: 2× параметров против 3× у DiLoCo+EF. Результаты экспериментов Модель: Трансформер с 220M параметров, 8 рабочих узлов. Производительность: MuLoCo с 2-битным квантованием достигает более низкого loss, чем базовый DiLoCo без сжатия. Сходимость MuLoCo превосходит AdamW даже в условиях data-parallel обучения. Практическая значимость Снижение затрат: Уменьшение коммуникации в 8× при сохранении качества открывает возможности для экономичного обучения LLM в распределённых системах. Универсальность: Метод применим к различным схемам сжатия (Top-k, квантование, DCT). Исследование подтверждает, что комбинация Muon с DiLoCo формирует новый стандарт для эффективного предобучения LLM, сочетая скорость, экономию ресурсов и стабильность.

2 дня назад

Резюме обсуждения на Hacker News по теме выбора лучшего LLM для потребительских ПК (в частности, на примере видеокарты GeForce RTX 5060 Ti с 16 ГБ VRAM). Рейтинг моделей LLM для локального запуска на домашнем ПК: 1. DeepSeek-R1-0528-Qwen3-8B - свежая модель с отличными способностями к рассуждениям, поддержкой JSON-вывода и вызова функций, низким уровнем галлюцинаций. Хорошо подходит для задач, где важна логика и последовательность. 2. Qwen3 (серия, особенно Qwen3-30B-A3B) - предлагает широкий выбор размеров — от крошечных до очень больших моделей. Qwen3-30B-A3B может работать даже на процессоре с приемлемой скоростью, а компактные версии (например, 0.6B) удивляют своей связностью. Qwen3 отлично подходит для экспериментов и разных задач, особенно если важна гибкость выбора. 3. Mistral (Small/Nemo, 14B–24B) Mistral — это семейство быстрых и хорошо оптимизированных моделей. Они отличаются отличной беглостью речи, "характером" в ответах и высокой скоростью работы. Mistral хорошо себя зарекомендовал в задачах беседы и кодинга. 4. Llama 3 — это проверенные временем модели, которые по-прежнему актуальны. Они универсальны, хорошо работают на разных задачах и имеют отличную поддержку сообщества. Для домашнего использования подходят модели до 30B (с квантованием и оффлоадингом). 5. Gemma 3 — быстрые и современные модели, но иногда могут давать "неуравновешенные" ответы. Тем не менее, они отлично подходят для экспериментов и задач, где важна скорость. Какие есть нюансы по железу и квантованию? VRAM важнее всего: Для моделей 14B–30B нужна видеокарта с 16 ГБ VRAM. Для моделей до 8B хватает и 8–12 ГБ. Квантование: Оптимально — 5–6 бит: сохраняется качество, но уменьшается размер модели. 4 бит — компромисс между размером и качеством, иногда возможны артефакты (повторения, случайные слова). Ниже 4 бит — только для экспериментов с очень большими моделями. Оффлоадинг: Если памяти не хватает, часть модели можно выгружать в оперативную память, но это замедляет работу. Нет универсального "лучшего" варианта: Каждая модель имеет свои сильные и слабые стороны. Выбор зависит от задач (например, беседа, кодинг, рассуждения). Рекомендуется тестировать самостоятельно: Лучше создать свой бенчмарк для своих задач и не полагаться только на общедоступные оценки.

3 дня назад

Когда искусственный интеллект управляет не только текстом, но и… вибрацией! Хочу рассказать про необычный проект, который появился недавно на GitHub. Он называется buttplug-mcp и позволяет умным чат-ботам (типа ChatGPT или Claude) управлять секс-игрушками. buttplug-mcp — это сервер на Go, который интегрируется с Intiface Central и позволяет LLM (например, Claude) запрашивать статус устройств, уровень заряда, сигнал и даже управлять вибрацией. Поддерживает REST-like API и инструменты для работы с устройствами. Можно использовать с Claude Desktop, Ollama, HomeAssistant и другими LLM-платформами. Обсуждение проекта на Hacker News превратилось в настоящий фестиваль IT-шуток: Teledildonics — новый must-have в резюме. Penetration testing, backdoor, injection attacks, load balancing — теперь с двойным смыслом. Enterprise Teledildonics — кто-нибудь, сделайте это реальностью! Vibe Coding — когда программирование становится по-настоящему чувственным. Автор — человек с большим опытом в технологиях обратной связи (haptics), который любит делать необычные проекты на 1 апреля. Этот сервер он создал как шутку, но всё работает по-настоящему.

3 дня назад

Skywork Open Reasoner 1: Революционный подход к управлению энтропией в обучении с подкреплением для языковых моделей рассуждения

Технический отчет Skywork Open Reasoner 1 представляет собой знаковую работу в области применения обучения с подкреплением (RL) для развития способностей к рассуждению у больших языковых моделей. Исследование выходит далеко за рамки простого улучшения производительности на математических задачах, предлагая первый в своем роде комплексный анализ множественных факторов, влияющих на эффективность GRPO-подобных методов обучения. Ключевым техническим прорывом является открытие и систематическое исследование...

3 дня назад

Краткие выводы из статьи “Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens” Новое исследование показало: эффективность CoT (Chain-of-Thought, цепочки рассуждений) в языковых моделях не зависит от смысла промежуточных “мыслей”. Даже когда модели обучают на случайных, бессмысленных трассировках алгоритма A* (не связанных с реальной задачей), они справляются с поиском пути в лабиринте так же хорошо, а иногда и лучше, чем когда обучают на правильных, осмысленных трассировках. Главный вывод: Семантическая осмысленность промежуточных шагов не обязательна для успешного решения задачи. Структура и наличие промежуточных токенов важнее, чем их конкретное значение — это может быть просто “каркас”, помогающий модели находить правильный ответ. Почему это важно: — Объяснимость (XAI): Трассировки рассуждений не всегда отражают реальные процессы модели. — Обучение и оптимизация: Не обязательно тратить ресурсы на создание идеально правильных цепочек рассуждений. — Обобщающая способность: “Бессмысленные” трассировки иногда улучшают работу модели на новых задачах. Всё это заставляет пересмотреть, как мы понимаем “рассуждения” в ИИ. Детальный разбор.

3 дня назад

Когда ты на Android и получаешь письмо: «⚠️ Приложение недоступно в App Store!» Вот оно, настоящее испытание — предупредить всех своих богатых друзей с айфонами, чтобы не остались без Авито! Похоже, теперь наш долг — быть вестниками плохих новостей для владельцев яблочных устройств. Держитесь, айфонодержатели! Если что, расскажем, как пользоваться Авито через браузер. P.s отправил всем у кого айфон, из них никто разумеется оповещение такого не получал 😂 #АндроидВсегдаНаСтраже #ПочтаДляБогатыхДрузей

3 дня назад

Пять лет назад, летом 2020 года, мир познакомился с GPT-3 — нейросетью, которая перевернула представление о возможностях искусственного интеллекта. Тогда GPT-3 казалась настоящим гигантом: 175 миллиардов параметров, датасет в 300 миллиардов токенов и длина контекста всего 2048 токенов. Сегодня технологии шагнули далеко вперёд: такие модели, как Qwen 3, обучаются на 36 триллионах токенов, а контекстное окно у Gemini и GPT-4.1 достигает миллиона токенов. При этом современные модели с параметрами в сотни раз меньше, чем у GPT-3, показывают сопоставимый интеллект благодаря качеству данных и оптимизации архитектур. Мультимодальность — ещё один прорыв последних лет. Если GPT-3 работала только с текстом, то современные ИИ понимают, генерируют и анализируют изображения, звук и видео, а также стали полноценными агентами: ищут информацию, вызывают функции, пишут и запускают код прямо в процессе ответа. Подход к обучению тоже изменился кардинально. GPT-3 предсказывала следующий токен в тексте, а сегодня модели проходят сложный посттрейн, учатся следовать инструкциям и решать задачи. RLHF и другие методы превратили ИИ из генераторов текста в полезных ассистентов. Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч GPU V100 казался огромным. Сегодня xAI строит кластер на миллион GPU, а обучение в fp8 и даже fp4 стало реальностью. Квантизация позволяет запускать модели уровня GPT-3.5 на смартфоне. ИИ стал массовым: open-source модели догоняют коммерческие, а инструменты для тонкой настройки доступны даже новичкам. Для сравнения теперь посмотрим, как изменился мир вокруг ИИ за эти пять лет. В 2020 году топовой видеокартой была NVIDIA GeForce RTX 2080 Ti, которая считалась монстром для игр и профессиональных задач. Сегодня на вершине находится NVIDIA GeForce RTX 5090 с 32 ГБ GDDR7 и мощностью, которая превосходит всё, что было раньше. Курс доллара к рублю в 2020 году колебался в районе 71 рубля за доллар. В мае 2025 году курс составляет 78, хотя совсем недавно был около 109 рублей за доллар, впрочем в отдельные месяцы наблюдались значительные колебания и снижения. Биткойн тоже пережил трансформацию: в 2020 году его цена находилась на уровне $9000–$10 000, а в 2025 году она достигла $95 000–$105 000, несмотря на высокую волатильность и периодические коррекции. За пять лет отношение к искусственному интеллекту изменилось кардинально. Если в 2020 году вера в ИИ была уделом преимущественно учёных и энтузиастов, а сам термин казался чем-то далёким и сложным для обычного пользователя, то сегодня ИИ вошёл в повседневную жизнь буквально каждого — он звучит из каждого утюга, встроен в смартфоны, приложения и бытовые устройства, стал неотъемлемой частью работы и отдыха. Современные AI-ассистенты помогают писать, учиться, работать, создавать контент и даже общаться, а миллионы людей по всему миру ежедневно используют ИИ, даже не задумываясь о сложных технологиях за этим стоящих. Искусственный интеллект перестал быть абстракцией — он стал привычным инструментом, без которого многие уже не представляют свою жизнь.

4 дня назад

Хайп и обман: как мошенники продают «ноу-хау». Современный рынок технологий — это настоящий карнавал хайпа. Каждый день появляются «революционные» проекты, которые обещают изменить мир с помощью искусственного интеллекта, блокчейна или чего-то ещё. Но за красивыми презентациями и громкими заявлениями часто скрывается пустота. Многие нечистые на руку предприниматели просто делают «высер» — берут примитивную идею или даже ничего не делают, а потом с умным видом преподносят это как уникальное ноу-хау. На деле технологии нет, а есть только желание втюхать инвесторам и пользователям очередную пустышку. Яркие примеры — Builder.ai, Amazon Just Walk Out, проекты с NFT и метавселенной, где за громкими словами скрывался обычный ручной труд или откровенный обман. В итоге рынок завален иллюзиями, а доверие к настоящим инновациям падает. Но проблема не только в мошенниках. Инвесторы, которые хотят побыстрее навариться, тоже виноваты в том, что рынок захлестнул хайп. Им не интересно создавать качественный продукт или развивать реальные технологии — главное, чтобы проект быстро выстрелил и принёс прибыль. Венчурные капиталисты часто действуют по принципу «кидай деньги во всё подряд — что-нибудь да взлетит». Они поддерживают хайп, верят в сказки о сверхдоходах и не задумываются о реальной ценности проекта. В результате стартапы фокусируются не на создании полезного продукта для пользователей, а на том, как бы поярче продать идею и привлечь деньги. Так жажда быстрой наживы убивает настоящие инновации и делает рынок токсичным для всех, кто хочет работать честно.

4 дня назад

Хайп и обман: как мошенники продают иллюзии под видом инноваций

Современный технологический рынок напоминает карнавал, где под маской «революционных решений» скрываются пустышки. Яркие термины вроде «искусственный интеллект» или «блокчейн» превратились в маркетинговые мантры, а инвесторы, жаждущие быстрой наживы, охотно верят в сказки о сверхприбылях. Реальность же такова: за громкими заявлениями часто стоят примитивные алгоритмы, ручной труд и откровенный обман. Этот феномен, известный как AI washing , стал символом эпохи, где хайп важнее сути, а доверчивость — источником миллионных убытков. Когда «ноу-хау» — всего лишь мыльный пузырь AI washing: искусство продавать воздух...

4 дня назад