Модель AI Prisma достигла впечатляющих результатов, обогнав GPT-2 по 5 из 8 стандартных тестов, при этом затратив на 25% меньше обучающих данных. Этот факт подчеркивает ее потенциал для более эффективного обучения в области нейросетей. Prisma — это новая архитектура трансформеров, разработанная с акцентом на интерпретируемость. Она содержит 357 миллионов параметров и использует 30 миллиардов токенов для обучения. В отличие от GPT-2, который имеет 24 слоя, Prisma имеет 41 слой и 4 весовых набора на слой, что позволяет лучше организовывать эти и делиться весами между слоями. На тестах BoolQ и ARC-E модель показала результаты 0.620 и 0.548 соответственно, что конкурентоспособно с моделями, обученными на 10-100 раз большем объеме данных. Интересно, что Prisma использует токенизатор от Facebook, что также положительно сказывается на результатах. После тестирования на нескольких выборках модель заняла место выше GPT-2, что учитывает необходимые аспекты предобученных эмбеддингов. Это открывае
Модель Prisma превосходит GPT-2 на 5 из 8 тестов с меньшими затратами
7 марта7 мар
1 мин