Найти в Дзене
Psy Eyes

CUDA Toolkit v13 вышла в тираж

CUDA Toolkit v13 вышла в тираж. Основным нововведением здесь является программирование с использованием массивов (tile-based programming). Ближайшим аналогом тут является Python, где работая с NumPy можно делать простые запросы к целым массивам или матрицам, а система сама справится с низкоуровневым выполнением. В отличие от SIMT программирования, где оперирование идёт индивидуальными потоками, Tile модель позволяет задействовать целые блоки данных, а компилятор и среда выполнения уже сами распределяют нагрузку по потокам и железу. Так же это даёт код написанный один раз сегодня запускать на железе будущего, ибо компилятор будет сам заниматься оптимизациями под него. Что ещё и буст в продуктивности. Также, wheels с нужными файлами теперь будут идти в одной папке. Например site-packages/nvidia/cu13/include, вместо site-packages/nvidia/cublas плюс site-packages/nvidia/cuda_cccl. Что ещё нового: * Упрощение для разработки под системы на Arm, единый тулкит * Новые математические библи

CUDA Toolkit v13 вышла в тираж.

Основным нововведением здесь является программирование с использованием массивов (tile-based programming). Ближайшим аналогом тут является Python, где работая с NumPy можно делать простые запросы к целым массивам или матрицам, а система сама справится с низкоуровневым выполнением.

В отличие от SIMT программирования, где оперирование идёт индивидуальными потоками, Tile модель позволяет задействовать целые блоки данных, а компилятор и среда выполнения уже сами распределяют нагрузку по потокам и железу. Так же это даёт код написанный один раз сегодня запускать на железе будущего, ибо компилятор будет сам заниматься оптимизациями под него. Что ещё и буст в продуктивности.

Также, wheels с нужными файлами теперь будут идти в одной папке. Например site-packages/nvidia/cu13/include, вместо site-packages/nvidia/cublas плюс site-packages/nvidia/cuda_cccl.

Что ещё нового:

* Упрощение для разработки под системы на Arm, единый тулкит

* Новые математические библиотеки

* Секция Throughput Breakdown внутри Nsight Compute для просмотра производительности отдельных юнитов

* Смена сжатия на ZStd вместо LZ4

/////////////////////////////////////////

PyTorch 2.8 почти синхронно с этим вышел в стабильный релиз.

Что тут нового:

* Механизм Wheels Variant позволяющий включать множество wheels в один питоновский пак. Система распознаёт версию CUDA и драйвер GPU, чтобы поставить нужный вариант wheels.

* Ускорения запуска квантизированных LLM на процессорах Intel при использовании torch.compile

* Поддержка индуктором CUTLASS для повышения производительности

* Иерархическая компиляция для ускорения torch.compile

Релиз пока не совместим с CUDA 13

-2