Найти тему
76 подписчиков

Сразу несколько анонсов от Hugging Face:


SafeCoder — решение для написания кода, рассчитанное на работу локально в корпоративной среде с её требованиями к безопасности и приватности. Позиционируется как личный Github copilot. Проект основан на StarCoder-15B от ServiceNow и натренирован на открытой кодовой базе из 80 языков программирования, с которой не должно возникнуть проблем при коммерческом использовании. Можно и на своём коде натренировать.

OBELICS — открытый и курируемый датасет из 141 млн пар текст-картинка, извлеченных из Common Crawl с 2020 по 2023 год. Модели, обученные на этих данных, превосходят другие в различных тестах. Коллекция включает интерактивную визуализацию и учитывает права на конфиденциальность и лицензирование. Объем данных составляет 666,6 ГБ в формате arrow и 377 ГБ в формате parquet.

IDEFICS — визуально-языковая модель (VLM) с 80B параметров, основанная на Flamingo от DeepMind. Принимает на вход изображения и текст по которым можно чатиться. То бишь, работает как Llava, OpenFlamingo и другие мультимодалочки. Обучена на открытых наборах данных, включая 115B токенов OBELICS. Имеет два варианта (9B и 80B) и лицензию MIT.
Сразу несколько анонсов от Hugging Face:  SafeCoder — решение для написания кода, рассчитанное на работу локально в корпоративной среде с её требованиями к безопасности и приватности.
Около минуты