Найти в Дзене

Что такое нейросеть?

Задумывались ли вы когда нибудь, что такое нейросеть? (Кодерам объяснять не нужно) Математика — это метод, словно костяк и кровеносная система, определяющая движение и логику. Код — это мозг, который управляет и организует все процессы, обеспечивая работу системы, а данные — это кровь, питательная среда, которая поддерживает жизнь модели и учит её новому. Мне стало интересно сколько вычислений требуется, чтобы просто выдать предложение длинной 5 слов. Дальше будет небольшой расчет: Для генерации предложения длиной пять слов модель уровня GPT-4 выполняет огромное количество вычислений, и общее количество уравнений (линейных преобразований, операций внимания, функций активации и т.д.) можно оценить приблизительно. Точное число зависит от архитектуры модели, таких факторов как количество слоев, размер каждого слоя и количество голов в механизме внимания. Давайте приблизительно разберем порядок вычислений. 1. Основные операции: Модель GPT-4 состоит из блоков трансформеров, и для каждого то
картинка сгенерирована нейросетью YandexART
картинка сгенерирована нейросетью YandexART

Задумывались ли вы когда нибудь, что такое нейросеть? (Кодерам объяснять не нужно)

Математика — это метод, словно костяк и кровеносная система, определяющая движение и логику. Код — это мозг, который управляет и организует все процессы, обеспечивая работу системы, а данные — это кровь, питательная среда, которая поддерживает жизнь модели и учит её новому.

Мне стало интересно сколько вычислений требуется, чтобы просто выдать предложение длинной 5 слов.

Дальше будет небольшой расчет:

Для генерации предложения длиной пять слов модель уровня GPT-4 выполняет огромное количество вычислений, и общее количество уравнений (линейных преобразований, операций внимания, функций активации и т.д.) можно оценить приблизительно. Точное число зависит от архитектуры модели, таких факторов как количество слоев, размер каждого слоя и количество голов в механизме внимания. Давайте приблизительно разберем порядок вычислений.

1. Основные операции:

Модель GPT-4 состоит из блоков трансформеров, и для каждого токена (слово или часть слова) она выполняет следующие шаги:

• Линейные преобразования для создания запросов, ключей и значений для многоголовочного внимания.

• Вычисления для механизма внимания, включая матричные умножения и нормализации.

• Применение функции активации (обычно ReLU или другой) после каждого слоя.

• Линейное преобразование после внимания для каждого слоя трансформера.

• Финальное преобразование после обработки всех слоев для генерации выходного токена.

2. Примерные расчеты:

Предположения:

• Количество слоев: допустим, 120 слоев (GPT-4 может иметь около 120–150 слоев).

• Количество голов в механизме внимания: например, 12 голов внимания на слой.

• Размерность скрытого состояния (количество нейронов на слой): допустим, около 15,000 нейронов.

• Длина предложения: 5 слов, каждый из которых может быть представлен 1-3 токенами (в зависимости от сложности слов). Предположим, что в среднем 5 слов — это 10 токенов.

Количество операций:

1 Механизм внимания: Для каждого токена модель вычисляет запросы, ключи и значения, затем вычисляет их скалярное произведение и нормализует через softmax для всех остальных токенов. Это включает несколько матричных операций. Если в каждой голове внимания используется 15,000 нейронов, то для одного токена выполняется порядка n в квадрате, умноженное на h операций, где n — количество токенов (в данном случае 10), а h — размерность векторов (около 15,000). На каждый токен потребуется около миллиона операций.

2 Количество операций на токен в слое: Это примерно 1 миллион операций на токен на каждый слой. Учитывая, что модель имеет около 120 слоев, на каждый токен нужно выполнить 120 миллионов операций.

3 Для 10 токенов (5 слов): Примерное количество операций на уровне нейронной сети для генерации предложения в 5 слов (10 токенов) составит: 120 миллионов умноженное на 10, что равно 1.2 миллиарда операций.

Итог:

Для предложения длиной в пять слов (примерно 10 токенов) модель GPT-4 выполняет порядка 1-2 миллиардов вычислений, включая линейные преобразования, операции внимания, и другие шаги на каждом слое трансформера.

Вот для чего строят датацентры - это миллиард математиков вычисляют наилучший результат предсказания нейросети. Но очень важный момент, что ее все еще учат люди, как минимум гипер параметры задаем мы.)