Найти в Дзене

А много ли нейросети действительно тратят энергии?

Оглавление

Тут недавно были заявления, что нейросети потребляют много энергии при обработке "вежливых" промтов типа "добрый день". Но так ли это на самом деле?

Несмотря на объективно низкие энергозатраты на один запрос, существует несколько причин, почему у людей складывается впечатление, что даже простые взаимодействия с ИИ (например, фраза «Добрый день») потребляют значительное количество энергии.

1. Путаница между обучением и инференсом

1.1. Гигантские энергозатраты на обучение моделей

  • Обучение GPT-3 (175B параметров):
    ~1,300 МВт·ч (эквивалент выбросов CO₂ от 500 автомобилей за год) [1].
    Источник: Strubell et al., 2019 (Energy and Policy Considerations for Deep Learning in NLP).
  • Медиа-акцент на обучении:
    Многие статьи (напр., в
    The Guardian, MIT Tech Review) фокусируются на углеродном следе обучения, но не объясняют разницу между ним и инференсом (обработкой запросов).

1.2. Ошибочная экстраполяция

  • Люди могут предполагать, что каждый запрос «переобучает» модель, хотя на деле ИИ лишь использует уже готовые веса.

2. Непонимание масштабируемости

2.1. Миллиарды запросов в день

  • ChatGPT: >100 млн пользователей (2023), каждый делает десятки запросов → суммарно гигаватты [2].
  • Аналогия:
    1 лампочка (10 Вт): не страшно.
    1 миллиард лампочек: колоссальные затраты.

2.2. Эффект «невидимой инфраструктуры»

  • Пользователи не видят:
    Холостую работу серверов (дата-центры потребляют энергию даже без нагрузки) [3].
    Сеть: передача данных между ЦОДами (особенно для распределённых моделей).

3. Когнитивные искажения

3.1. «Эффект сложности»

  • Чем «умнее» кажется ИИ, тем больше люди переоценивают его энергопотребление (аналогия с человеческим мозгом, который тратит ~20 Вт).

3.2. Медиа-сенсации

  • Заголовки типа «Один запрос к ChatGPT = стакан воды!»* [4] (на деле речь о полных жизненных циклах, включая охлаждение дата-центров).

4. Технические мифы

4.1. «Блокчейн-аналогия»

  • Люди ассоциируют ИИ с криптовалютами (напр., Bitcoin = 1000+ Вт·ч на транзакцию), хотя архитектура принципиально иная.

4.2. Устаревшие данные

  • Ранние NLP-модели (напр., BERT) действительно требовали в 10–100 раз больше энергии на запрос [5], но оптимизации (кэширование, квантизация) резко снизили затраты.

5. Как исправить misconceptions?

  1. Чётко разделять обучение и инференс в объяснениях.
  2. Сравнивать с бытовыми аналогами:
    «1 запрос = энергия 0.1 секунды работы лампочки».
  3. Подчёркивать прогресс:
    GPT-4 на
    TPU v4 в 5 раз эффективнее GPT-3 [6].

Заключение

Запрос «Добрый день» не является энергозатратным сам по себе, но мифы возникают из-за:

  • Смешения обучения и использования,
  • Масштаба сервисов (миллиарды запросов),
  • Медийных упрощений.

Как видите, проблема с потреблением энергии нейросетями далеко не такая сильная, как о ней сообщают. Так зачем же такого рода информацию распространяют? Ну а как еще обусловить повышение цен на тарифы для доступа к нейросетям?

Источники:
[1] Strubell, E. et al. (2019).
ACL. https://arxiv.org/abs/1906.02243
[2] OpenAI. (2023).
ChatGPT Usage Statistics.
[3] Shehabi, A. et al. (2016).
LBNL Report.
[4] Jones, N. (2021).
Nature. «How to stop data centres from gobbling up the world’s electricity».
[5] Patterson, D. et al. (2022).
arXiv:2110.06388.
[6] Jouppi, N. et al. (2023).
IEEE Micro.