Найти в Дзене

Модель Prisma превосходит GPT-2 на 5 из 8 тестов с меньшими затратами

Модель AI Prisma достигла впечатляющих результатов, обогнав GPT-2 по 5 из 8 стандартных тестов, при этом затратив на 25% меньше обучающих данных. Этот факт подчеркивает ее потенциал для более эффективного обучения в области нейросетей. Prisma — это новая архитектура трансформеров, разработанная с акцентом на интерпретируемость. Она содержит 357 миллионов параметров и использует 30 миллиардов токенов для обучения. В отличие от GPT-2, который имеет 24 слоя, Prisma имеет 41 слой и 4 весовых набора на слой, что позволяет лучше организовывать эти и делиться весами между слоями. На тестах BoolQ и ARC-E модель показала результаты 0.620 и 0.548 соответственно, что конкурентоспособно с моделями, обученными на 10-100 раз большем объеме данных. Интересно, что Prisma использует токенизатор от Facebook, что также положительно сказывается на результатах. После тестирования на нескольких выборках модель заняла место выше GPT-2, что учитывает необходимые аспекты предобученных эмбеддингов. Это открывае
Оглавление

Модель AI Prisma достигла впечатляющих результатов, обогнав GPT-2 по 5 из 8 стандартных тестов, при этом затратив на 25% меньше обучающих данных. Этот факт подчеркивает ее потенциал для более эффективного обучения в области нейросетей.

Контекст: что такое Prisma

Prisma — это новая архитектура трансформеров, разработанная с акцентом на интерпретируемость. Она содержит 357 миллионов параметров и использует 30 миллиардов токенов для обучения. В отличие от GPT-2, который имеет 24 слоя, Prisma имеет 41 слой и 4 весовых набора на слой, что позволяет лучше организовывать эти и делиться весами между слоями.

Детали о производительности и сравнение с GPT-2

На тестах BoolQ и ARC-E модель показала результаты 0.620 и 0.548 соответственно, что конкурентоспособно с моделями, обученными на 10-100 раз большем объеме данных. Интересно, что Prisma использует токенизатор от Facebook, что также положительно сказывается на результатах.

После тестирования на нескольких выборках модель заняла место выше GPT-2, что учитывает необходимые аспекты предобученных эмбеддингов. Это открывает новые горизонты для применения подобной архитектуры в реальных задачах.

«И что мне с этого?»

Для разработчиков это сигнал к тому, что новая модель AI Prisma может стать отличной альтернативой существующим решениям. Учитывая ее эффективность и меньшие затраты на обучение, стоит обратить внимание на ее интеграцию в свои проекты.

The post Модель Prisma превосходит GPT-2 на 5 из 8 тестов с меньшими затратами appeared first on itech-news.