7 подписчиков

Список Python vs Тензор PyTorch: Почему [80, 1...] — это не то же самое, что tensor([80, 1...])

23 апреля23 апр

2 мин

Если вы когда-либо заглядывали «под капот» кода для обучения нейросетей, вы наверняка видели этот магический переход: сначала мы кодируем текст в обычный список чисел, а затем немедленно оборачиваем его в torch.tensor. На экране результаты выглядят почти одинаково: Визуально разница невелика, но в мире Information Technology между ними пролегает пропасть. Давайте разберемся, почему этот переход — критический этап в разработке любой LLM. Когда вы используете encode(text[:10]), вы получаете стандартный Python List. С точки зрения структуры данных — это массив указателей. Как это хранится: В памяти это выглядит как разбросанные «коробки» с объектами-числами. Список хранит не сами числа, а адреса (ссылки), где эти числа лежат. Проблема: Чтобы сложить два таких списка, процессору нужно постоянно «прыгать» по разным адресам памяти. Это огромный оверхед. Для простых задач это незаметно, но для модели с миллиардами параметров — это фатально медленно. Итог: Это данные для человека и общей логик

Оглавление

1. Python List: Удобный, но «ленивый» менеджер
2. PyTorch Tensor: Спецназ для вычислений
3. Почему это важно для LLM?

На экране результаты выглядят почти одинаково:

[80, 1, 28, 39, 42, 39, 44, 32, 49, 1]
tensor([80, 1, 28, 39, 42, 39, 44, 32, 49, 1])

Визуально разница невелика, но в мире Information Technology между ними пролегает пропасть. Давайте разберемся, почему этот переход — критический этап в разработке любой LLM.

1. Python List: Удобный, но «ленивый» менеджер

Когда вы используете encode(text[:10]), вы получаете стандартный Python List. С точки зрения структуры данных — это массив указателей.

Как это хранится: В памяти это выглядит как разбросанные «коробки» с объектами-числами. Список хранит не сами числа, а адреса (ссылки), где эти числа лежат.

Проблема: Чтобы сложить два таких списка, процессору нужно постоянно «прыгать» по разным адресам памяти. Это огромный оверхед. Для простых задач это незаметно, но для модели с миллиардами параметров — это фатально медленно.

Итог: Это данные для человека и общей логики программы.

2. PyTorch Tensor: Спецназ для вычислений

Когда мы пишем data = torch.tensor(...), правила игры меняются. Мы создаем Тензор.

Как это хранится: Данные упаковываются в непрерывный блок памяти (C-style array). Числа лежат вплотную друг к другу, как патроны в обойме.

Магия SIMD: Благодаря такой структуре, современные процессоры могут использовать команды SIMD (Single Instruction, Multiple Data). Это значит, что за один такт процессор может прибавить число ко всему тензору сразу, а не перебирать его в цикле.

Билет на GPU: Обычный список Python «привязан» к оперативной памяти и CPU. Тензор — это универсальный паспорт. Одной командой .to('cuda') вы перекидываете этот блок данных в видеопамять, где тысячи ядер GPU обработают его в сотни раз быстрее.

3. Почему это важно для LLM?

Обучение большой языковой модели — это бесконечное перемножение матриц.

Тензор позволяет выполнять эти операции параллельно.

Тензор потребляет минимум памяти (ровно 8 байт на число при torch.long), тогда как объект-число в Python может занимать 28 байт и более.

Резюме для разработчика

Если вам нужно просто сохранить пару индексов — используйте List.

Но если ваша цель — данные для нейросети, превращайте их в Tensor.

Это превращает ваши данные из пассивного набора чисел в активный вычислительный юнит, готовый к мощностям современных видеокарт.