Найти тему
Статьи
10 часов назад
⚡️ XVERSE-MoE-A36B: большая языковая модель на архитектуре MoE. XVERSE-MoE-A36 - мультиязычная LLM, разработанная с нуля Shenzhen Yuanxiang Technology. Модель основана на архитектуре Mixture-of-Experts, имеет 255 млрд. параметров, из которых 36 млрд. активируются в процессе работы. XVERSE-MoE-A36B предназначена для решения задач: генерация текста, машинный перевод, анализ тональности, реферирование текста, вопрос-ответ, применение в интеллектуальных системах обслуживания клиентов, образовательных помощниках и анализе данных. Модель использует структуру decoder-only Transformer, где слой Feedforward Network разделен на специализированные экспертные слои. Отличительной особенностью модели является использование набора общих и не общих экспертов, каждый из которых составляет 1/4 от размера стандартного FFN. Общие эксперты всегда активны во время вычислений, а не общие - активируются выборочно маршрутизатором. Для обучения модели использовался массив данных на 40 языках, включая китайский, английский, русский и испанский. В процессе обучения использовалась стратегия динамического изменения набора данных с изменением скорости обучения (LR). Тестирование модели проводилось на наборах данных MMLU, C-Eval, CMMLU, RACE-M, PIQA, GSM8K, MATH, MBPP и HumanEval. Результаты показывают, что XVERSE-MoE-A36B превосходит другие модели MoE с открытым исходным кодом по производительности и эффективности. ▶️ Технические параметры модели: 🟢total parameters: 255.4B; 🟢active parameters: 36.5B; 🟢total layers: 50; 🟢dimensionality: 6144; 🟢attention heads: 48; 🟢feed-forward dimensionality: 4096; 🟢non-shared experts: 64; 🟢shared experts: 2; 🟢top-k sampling: 6. ⚠️ Важно! Несмотря на название, модель - 255B, ее физический размер ~ 512 Gb ▶️Установка и запуск: # Clone repository: git clone https://github.com/xverse-ai/XVERSE-MoE-A36B cd XVERSE-MoE-A36B # Install the dependencies: pip install -r requirements.txt # Inference with Transformers: import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B") model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto') model = model.eval() inputs = tokenizer('Attraction of Omsk: The Forbidden City', return_tensors='pt').input_ids inputs = inputs.cuda() generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1) print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True)) # Inference with WebUI: python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/' 📌Лицензирование : Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Demo (Chinese) 🖥Github @machinelearning #AI #ML #MoE #LLM #XVERSE
12 часов назад
Новостной дайджест ✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons. Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев. Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ. uk.news.yahoo.com ✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO. Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO. scmp.com ✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности. AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров. Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы. Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию. FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025. hothardware.com ✔️ ОАЭ представили новую политику безопасности в области ИИ. Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности. Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия. wam.ae ✔️ Италия тестирует обучение с помощью ИИ в школах. Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС. В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования". Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт. В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить. kfgo.com @ai_machinelearning_big_data #news #ai #ml
🌟 LLaMA-Factory: локальный файнтюн моделей с WebUI. LLaMA-Factory - это фреймворк, который объединяет в себе набор методов манипуляций с моделями и инструментов для гибкой настройки через веб-интерфейс Gradio. Фреймворк состоит из трех основных модулей: 🟢Model Loader - управляет архитектурами моделей, поддерживая LLM и VLM; 🟢Data Worker - модуль для операций с наборами данных; 🟢Trainer - применяет подходы к обучению: Pre-Training, SFT, Reward Modeling, PPO, DPO, KTO, ORPO, SimPO. LLaMA-Factory поддерживает методы: freeze-tuning, GaLore, BAdam, LoRA, QLoRA, DORA, LORA+ и PiSSA, а также flash attention, S2 attention, mixed precision training, activation checkpointing и стратегии квантования. Список поддерживаемых семейств моделей периодически пополняется, его актуальную версию можно посмотреть в репозитории проекта. Gradio WebUi позволяет настраивать аргументы обучения, визуализировать журналы обучения и кривые потерь в режиме реального времени, а также поддерживает несколько языков: английский, русский и китайский. На потребительских GPU (24Gb), согласно таблице разработчиков, запустятся методы: 🟠Freeze 16-bit - модели плотностью 7B; 🟠LoRA/GaLore/BAdam 16-bit - модели плотностью 7B; 🟠QLoRA 8-bit - модели плотностью 7B, 13B; 🟠QLoRA 4-bit - модели плотностью 7B, 13B, 30B; 🟠QLoRA 2-bit - модели плотностью 7B, 13B, 30B и 70B. ⚠️ Перед локальным запуском внимательно ознакомьтесь с требованиями по пакетному окружению, рекомендациями по установке для разных архитектур, инструкцией по подготовке данных. ▶️ Проект может быть инсталлирован : Docker, Docker w\o Composer, OpenAI-style API and vLLM и классическим способом установки из репозитория. 📌Лицензирование : Apache 2.0 License. 🟡Документация (китайский) 🟡Google Collab 🟡Arxiv 🟡Demo 🟡Сообщество в Discord 🖥Github @machinelearning #AI #ML #LLM #Finetune #LlaMAFactory
1 прочтение · 2 дня назад
🌟 PuLID+FLUX: перенос внешности на генерации в FLUX . PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции. PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev: 🟢ID-кодер перенесен из структуры MLP в структуру Transformer; 🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT; 🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален; 🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU; 🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно. В PuLID for FLUX есть два критически важных гиперпараметра: timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4. true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса. Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG. Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI: 🟠собственная реализация сообщества ComfyUI; 🟠diffusers-based implementation. ⚠️ Важно! 🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении; 🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1 ▶️Установка и запуск GradioUI: # clone PuLID repo git clone https://github.com/ToTheBeginning/PuLID.git cd PuLID # create conda env conda create --name pulid python=3.10 # activate env conda activate pulid # Install dependent packages # 1. For SDXL or Flux-bf16, install the following pip install -r requirements.txt # 2. For Flux-fp8, install this pip install -r requirements_fp8.txt # Run Gradio UI python app.py 📌Лицензирование : Apache 2.0 License. 🟡Arxiv 🟡Demo 🟡Google Collab 🖥Github @machinelearning #AI #ML #FLUX #GenAI #PuLID
🌟 AutoRound: расширенный алгоритм квантования LLM от Intel. AutoRound - усовершенствованный алгоритм квантования для малоразрядных LLM, основанный на методе "SignRound" исследования "Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs". Алгоритм использует градиентный спуск по знаку для точной настройки значений округления и minmax-значений весов всего за 200 шагов. AutoRound составляет конкуренцию современным методам, не создавая дополнительных накладных расходов на инференс и сохраняя низкую стоимость настройки. В основе AutoRound лежит идея SignRound - поиска оптимального порога округления для каждого блока весов. В отличие от стандартного округления к ближайшему целому (RTN), SignRound учитывает взаимосвязи между весами, и между весами и активациями. Для этого используется блочная реконструкция вывода, где минимизируется ошибка между выходом исходного блока и его квантованной версией. ▶️Форматы квантования: 🟢AutoRound - подходит для CPU, HPU устройств и инференса со смешанной точностью; 🟢AutoGPTQ - подходит для симметричного квантования на устройствах CUDA, но симметричное квантование имеет тенденцию плохо работать при 2-битной точности; 🟢AutoAWQ - подходит для асимметричного 4-битного квантования на устройствах CUDA, в нем реализовано специализированное слияние слоев, предназначенное для моделей семейства Llama. Алгоритм поддерживает практически все основные крупные языковые модели и семейства: Llama, Qwen, Yi, Mistral, gemma, falcon, Phi, Mixtral и др. Полный список с примерами и рецептами конфигураций для каждого семейства можно найти в репозитории проекта. 📌Лицензирование : Apache 2.0 License. 🟡Arxiv 🖥Github @machinelearning #AI #ML #Quantization #LLM #AutoRound
🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений. LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев. В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности. В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям. Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания. ▶️Технические параметры модели: 🟢Parameters: 53B; 🟢Active parameters: 13B; 🟢Numbers of layers: 24; 🟢Mixture of Experts: 16/Top-2 for each token; 🟢Normalization: RMSNorm; 🟢Attention: Grouped Query Attention; 🟢Activation functions: SwiGLU. 📌Лицензирование : MIT License 🟡Arxiv 🟡Модель 🖥Github @machinelearning #AI #ML #MMLM #LongLLaVA
🌟 Nyuntam: Многофункциональный Toolkit для LLM и VLM. Nyuntam - это набор инструментов для оптимизации, адаптации и ускорения моделей разной модальности в различных сферах применения. Nyuntam умеет обрезать (pruning), квантовать, дистиллировать, выполнять тонкую настройку под конкретные задачи с использованием методов (Q)LoRA, (Q)SSF и др. Набор состоит из нескольких подмодулей, каждый из которых нацелен на решение конкретных задач: 🟢Text Generation: сжатие текстовых LLM; 🟢Vision: сжатие и оптимизация VLM; 🟢Adapt: модуль для тонкой настройки и трансферного обучения LLM и VLM с использованием PEFT и параллелизма GPU. Каждый подмодуль в Nyuntam требует YAML-файл, который определяет все необходимые гиперпараметры и конфигурации для запуска задачи. Примеры и шаблоны этих YAML-файлов можно найти в каждом подмодуле репозитория. Для более подробных сведений о параметрах и вариантах использования обратитесь к подробной документации проекта. Практические примеры задач с детальными туториалами: 🟢Максимизация математической производительности для экстремального сжатия: 2-bit Llama3-8b; 🟢4-bit квантование Llama3.1-8b с акселерацией для задач текстовой генерации; 🟢2-х кратное уменьшение размера Llama3.1 70B методом Fluctuation-based Adaptive Structured Pruning; 🟢Ускорение TensorRT LLM до 2,5 раз: эффективное 4-8-4 квантование Llama3.1-8b; 🟢Ускорение 4-битной квантованной модели Llama; 🟠Обрезка YOLOX с помощью MMRazor; 🟠8-bit CPU квантование ResNet50 с помощью NNCF на датасете CIFAR-10; 🟠Сегментация с помощью SegNeXt набора данных городских пейзажей с помощью SSF; 🟢Файнтюн RTMDet на наборе данных face-det с помощью LoRA и DDP; 🟢Файнтюн T5 large с помощью QLoRA на наборе данных XSUM; 🟢Файнтюн Llama3-8b с помощью QDoRA и FSDP. ▶️Установка и запуск: # Clone the Repository git clone --recursive https://github.com/nyunAI/nyuntam.git cd nyuntam # Create & activate venv python3 -m venv {ENVIRONMENT_NAME} source {ENVIRONMENT_NAME}/bin/activate # Install packages # for text_generation pip install -r text_generation/requirements.txt # for vision pip install -r vision/requirements.txt # for nyuntam_adapt pip install -r nyuntam_adapt/requirements.txt # run an experiment python main.py --yaml_path {path/to/recipe.yaml} 🟡Документация 🖥Github [ Stars: 32 | Issues: 1 | Forks: 1] @machinelearning #AI #NynAI #MLTool #LLM #VLM
Новостной дайджест ✔️ Salesforce представила Industries AI: 100+ готовых возможностей искусственного интеллекта для решения задач в 15 отраслях бизнеса. Salesforce Industries AI использует ИИ для автоматизации задач, специфичных для каждой отрасли: финансы, медицина, автотранспорт, энергетика, логистика т.д. Клиенты могут воспользоваться готовыми шаблонами и использовать ИИ с помощью моделей данных, релевантных для конкретной отрасли, а также собственных данных и метаданных - например, медицинских карт, баз данных доноров или телематических систем - для получения релевантных и контекстных результатов и выводов. Помимо новых функций, Salesforce акцентирует доступность Industries AI, которая встроена в каждую из 15 отраслевых облачных платформ Salesforce. Большинство функций станут общедоступны к октябрю 2024 года и февралю 2025 года, при этом Salesforce планирует добавлять новые возможности в рамках трех ежегодных релизов. salesforce.com ✔️ NotebookLM: экспериментальная RAG-функция Google, которая делает подкаст из любого документа, текста или URL. Google NotebookLM позволяет загружать до 100 документов объемом до 200 000 слов каждый и генерировать на их основе : краткое содержание, FAQ, инструкцию по изучению темы и т. д. С недавним обновлением, сервис получил усовершенствование: теперь Google NotebookLM может генерировать подкасты (с мужским и женским ведущим) из ваших файлов, текста или URL. Генерация ролевого подкаста доступна только для английского языка, качество генерации речи очень высокое. Попробовать: зайдите на notebooklm.google.com, загрузите любой документ, текст или укажите URL материала. Затем нажмите Notebook Guide справа от поля ввода и выберите Generate в разделе Audio Overview. techcrunch.com ✔️ Anthropic добавила "Workspaces" в консоли API для команд. Рабочие пространства — это уникальные среды, позволяющие организовать ресурсы, упростить управление доступом и настроить индивидуальные лимиты расходов и скорости на более детальном уровне. С помощью рабочих пространств пользователи могут устанавливать ограничения расходов на уровне рабочего пространства, группировать связанные ресурсы, управлять ограничениями скорости, оптимизировать управление доступом и отслеживать использование API. anthropic.com ✔️ Adobe анонсировала генерацию видео в своих продуктах в этом году. Adobe анонсировала набор инструментов для создания видео с использованием искусственного интеллекта, которые будут доступны как в Premiere Pro, так и на отдельном веб-сайте.  Firefly Video, так называется модель, предлагает три основных функции: Generative Extend, Text to Video и Image to Video. Generative Extend добавляет к существующему видео два секунды, а Text to Video и Image to Video создают видео продолжительностью пять секунд на основе текстовых или изображений подсказок.  Adobe не назвала точную дату запуска, но указала, что функции, основанные на модели Firefly Video, станут доступны до конца 2024 года. techcrunch.com ✔️ Stanford Research: AI-ресечеры превосходят человеческих экспертов в генерировании новых идей. Исследование, проведенное Стэнфордским университетом, сравнило способность больших языковых моделей и экспертов-людей генерировать инновационные научные идеи. Идеи, генерируемые LLM, были признаны более новыми, чем идеи, предложенные экспертами-людьми. Этот вывод был сделан на основе масштабного эксперимента с участием более 100 специалистов по NLP. Эксперты не только генерировали собственные идеи, но и оценивали как идеи, созданные ИИ, так и идеи, предложенные людьми, не зная их авторства. Результаты показали, что идеи, сгенерированные ИИ, получили более высокие оценки за новизну (p < 0,05) по сравнению с идеями, написанными людьми. Важно отметить, что исследователи также обнаружили, что идеи ИИ были оценены как менее осуществимые, чем идеи, предложенные людьми. Это говорит о том, что, хотя ИИ может генерировать новые идеи, они могут быть не так легко реализуемы на практике. arxiv.org @ai_machinelearning_big_data #news #ai #ml
2 прочтения · 6 дней назад
⚡️ Arcee-Llama-3.1-SuperNova 70B и 8B: Дистиллированные версии Llama 405B. Arcee представила Arcee-SuperNova-70B и Arcee-SuperNova-Lite (8B), разработанные для альтернативной замены крупным проприетарным моделям, ориентированные на следование инструкциям и согласованию с человеческими предпочтениями. Создание Arcee-SuperNova включало в себя несколько этапов, начиная с дистилляции Llama-3.1-405B-Instruct в Llama-3.1-70B-Instruct. Для этого был создан датасет из 500 млн. токенов, включающий примеры кода и математических задач и извлеченные logits модели Llama-3.1-405B. Обучение Llama-3.1-70B-Instruct проводилось в течение пяти дней на 32 GPU H100 с использованием FSDP (Fully Sharded Data Parallel) для обеспечения возможности распределенного обучения. Параллельно с этим была обучена отдельная версия Llama-3.1-70B с использованием Spectrum, настроенного на на 35% слоев с наивысшим соотношением SNR при длине последовательности 8192. Эта модель была обучена на наборе данных, созданном с помощью конвейера EvolKit - фреймворка повышения сложности инструкций при файнтюне LLM. Финальная версия Arcee-SuperNova была создана путем слияния чекпойнтов из EvolKit и DPO, которые затем были объединены с дистиллированной Llama-3.1-70B-Instruct. Проведенные тесты готовой модели в бенчмарке IF-Eval, показали, что Arcee-SuperNova превосходит не только Llama-3.1-70B-Instruct, но и проприетарные модели от OpenAI и Anthropic, а также Llama-405B-Instruct. 🟠Arcee-SuperNova-70B доступна только через API-сервис Arcee, а попробовать ее можно в playground web-интерфейса бесплатно; 🟢Arcee-SuperNova-Lite (8B), созданная по тому же принципу, что и 70B, доступна на Huggingface; 🟢Неофициальные GGUF версии Arcee-SuperNova-Lite (8B) от bartowski разрядностью от 2-bit (2.95Gb) до 16-bit (16 Gb) для использования с llama.cpp и LM Studio. 📌Лицензирование : Llama3 🟡Страница проекта 🟡Набор GGUF 🟡Модель Arcee-SuperNova-Lite 🟡Demo 70B @machinelearning #AI #ML #LLM #Llama #Supernova
2 прочтения · 6 дней назад
🌟 SCIAGENTS : Автоматизация научных изысканий с помощью мультиагентных графовых рассуждений. SciAgents - фреймворк, который самостоятельно генерирует и уточняет исследовательские гипотезы, разъясняя лежащие в их основе механизмы, принципы проектирования и неожиданные свойства объекта исследования. Благодаря модульности этого функционала, SciAgents позволяет делать существенные открытия, критиковать и совершенствовать предположения, получать актуальные данные о проводимых исследованиях и выявлять их сильные и слабые стороны. SciAgents умеет находить скрытые связи между сферами исследования, которые ранее считались несвязанными, достигая масштабов, точности и исследовательской мощи, превосходящих традиционные методы исследований, основанные на участии человека. Практическая реализация для тестирования SciAgents представлена двумя ipynb для генерации новых исследовательских идей, соответствующих неавтоматизированному и автоматизированному мультиагентным методам. Для запуска SciAgents понадобятся: 🟢GraphReasoning; 🟢wkhtmltopdf ; 🟠OpenAI API-key; 🟠Semantic Scholar API. ▶️ Установка: # Graph Reasoning installation pip install git+https://github.com/lamm-mit/GraphReasoning # wkhtmltopdf installation sudo apt-get install wkhtmltopdf # Graph file from huggingface_hub import hf_hub_download graph_name='large_graph_simple_giant.graphml' filename = f"{graph_name}" file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component') # Embeddings from huggingface_hub import hf_hub_download embedding_name='embeddings_simple_giant_ge-large-en-v1.5.pkl' filename = f"{embedding_name}" file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component') # Clone SciAgents git clone https://github.com/lamm-mit/SciAgentsDiscovery.git # Insatll reqs cd SciAgentsDiscovery pip install -e . 🟡Arxiv 🖥Github @machinelearning #AI #ML #Alents #Research #SciAgentsDiscovery
🌟 VEnhancer: Генеративное улучшение синтезированного видео. VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области. Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x. VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet. Несколько дней назад VEnhancer получил обновление: 🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями); 🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта); 🟢Использование временного VAE для уменьшения мерцания. Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео. ⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM. Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI. ▶️Установка: # Clone repo git clone https://github.com/Vchitect/VEnhancer.git cd VEnhancer # Create environment conda create -n venhancer python=3.10 conda activate venhancer # Install requirments: pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pip install -r requirements.txt ▶️Установка пакета ffmpeg: sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y ▶️Инференс с помощью CLI: bash run_VEnhancer.sh ▶️Инференс с помощью GradioUI: python gradio_app.py 🟡Страница проекта 🟡Arxiv 🟡Модель 🟡Demo Video 🖥Github [ Stars: 224 | Issues: 8 | Forks: 13] @machinelearning #AI #Text2Video #VEnchancer #ML
1 неделю назад
Новостной дайджест ✔️ 3.7 миллиона фальшивых звезд GitHub. Сервис Socket обнаружили 3.7 миллиона фальшивых звезд GitHub, что указывает на тенденцию роста угроз, связанных с мошенничеством, финансовыми махинациями и вредоносным ПО. Эти кампании быстро активизировались за последние шесть месяцев. Фальшивые звезды используются для обмана пользователей, чтобы распространять вредоносное ПО и для привлечения инвестиций венчурных фондов в подставные компании с плохими показателями. Алгоритм Socket выявил 3 746 538 подозрительных звезд за последние пять лет (с июля 2019 года по июль 2024 года) и 10 155 репозиториев, которые, по-видимому, проводили кампании по накрутке. socket.dev ✔️ LLM не могут объяснить свои рассуждения. В статье автор приводит интерактивную демонстрацию для проверки способности LLM распознавать и объяснять числовые последовательности, генерируемые случайными программами. Несмотря на то, что модели в некоторых случаях определяют правильную последовательность, их объяснения бывают неверными. Этот эксперимент подтверждает существующие ограничения в рассуждающих способностях LLM, несмотря на их показатели в популярных бенчмарках. jonathanychan.com ✔️ YouTube создает инструменты для обнаружения дипфейков лиц и голосов. Компания представила две новые технологии: первая позволяет автоматически обнаруживать ИИ-контент, который имитирует голоса исполнителей, а вторая - обнаруживать и управлять контентом, созданным с помощью ИИ, на котором присутствуют лица людей. Новые функции основаны на многолетнем опыте YouTube в разработке технологических подходов к решению проблем с правами в больших масштабах. YouTube дополнительно ведет разработку новых способов предоставления авторам выбора в отношении того, как третьи стороны могут использовать их контент на платформе. blog.youtube ✔️ Поиск нового поколения и RAG с Vertex AI. В блоге Google Cloud опубликована статья о том, как Vertex AI можно использовать для создания поисковых приложений следующего поколения. Статья состоит из трех частей: новые шаблоны в поиске, развитие поиска в будущем и RAG с помощью Vertex AI. cloud.google.com ✔️ Повышение эффективности отладки C++ с помощью breakpoint expressions, генерируемых искусственным интеллектом. В статье Devblogs Microsoft представлена новая функция в Visual Studio 2022, использующая искусственный интеллект для генерации выражений для условных точек останова и точек трассировки в коде C++. Эта функция, работающая на базе GitHub Copilot поможет разработчикам сэкономить время и силы, позволив ИИ предлагать подходящие условия или создавать собственные. В статье приводится пошаговое руководство по включению и использованию этой функции в Visual Studio 2022. devblogs.microsoft.com @ai_machinelearning_big_data #news #ai #ml
Ролики
Видео