10,2 тыс подписчиков

⚡️ Vikhr-Gemma-2B-instruct: Инструктивная русскоязычная версия Gemma2.

Vikhr models - команда энтузиастов, занимающихся созданием и развитием русифицированных моделей искусственного интеллекта выпустила инструктивную модель Vikhr-Gemma-2B-instruct, построенную на базе Gemma2-2B, которая была дообучена на русскоязычном корпусе данных GrandMaster-PRO-MAX.

Датасет GrandMaster-PRO-MAX - собственный русскоязычный датасет проекта Vikhr models в формате вопрос-ответ, собранных из различных источников.

Характерной особенностью датасета является, то, что модели обученные на этом наборе данных будут иметь способность к Chain-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов датасета.

Авторы опубликовали квантованные GGUF-версии модели в разрядности от 1-bit (832 MB) до 32-bit (10.5 GB).

Наиболее низкие показатели Perplexity, полученные в тестах на датасетах Veles и Wikitext-2 у GGUF-версий FP32, FP16, BF16, Q8_0 и Q5_K.

▶️Пример запуска модели на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

# Загрузка модели и токенизатора

model_name = "Vikhrmodels/Vikhr-Gemma-2B-instruct"

model = AutoModelForCausalLM.from_pretrained(model_name)

tokenizer = AutoTokenizer.from_pretrained(model_name)

# Подготовка входного текста

input_text = "Напиши стихотворение о весне в России."

# Токенизация и генерация текста

input_ids = tokenizer.encode(input_text, return_tensors="pt")