1 подписчик

AI Digest december 2024

3 января 20253 янв 2025

11 мин

1. 346 реакций: doomgrad опубликовал пост https://t.me/doomgrad/675 со ссылкой на статью https://arxiv.org/abs/2412.01819 Авторами статьи являются Антон Воронков, Денис Кузнеделев, Михаил Хороших, Валентин Хрульков из компании Яндекс и Дмитрий Баранчук. Статья была написана в декабре 2024 года. В статье рассматривается проблема генерации изображений на основе текстовых описаний с использованием трансформерных моделей. Предложенные авторами архитектурные изменения включают введение некасульной версии трансформера, что позволяет ускорить процесс выборки и уменьшить потребление памяти. Также было замечено, что использование классификатора на высоких разрешениях не всегда необходимо и может снижать производительность. Отключение этого руководства на определенных этапах помогает улучшить качество изображений и ускорить процесс их генерации. Полученные результаты показывают, что предложенная модель SWITTI превосходит другие существующие подходы и работает до семи раз быстрее, чем некоторые с

1. 346 реакций: doomgrad опубликовал пост https://t.me/doomgrad/675 со ссылкой на статью https://arxiv.org/abs/2412.01819

Авторами статьи являются Антон Воронков, Денис Кузнеделев, Михаил Хороших, Валентин Хрульков из компании Яндекс и Дмитрий Баранчук.

Статья была написана в декабре 2024 года.

В статье рассматривается проблема генерации изображений на основе текстовых описаний с использованием трансформерных моделей.

Предложенные авторами архитектурные изменения включают введение некасульной версии трансформера, что позволяет ускорить процесс выборки и уменьшить потребление памяти.

Также было замечено, что использование классификатора на высоких разрешениях не всегда необходимо и может снижать производительность.

Отключение этого руководства на определенных этапах помогает улучшить качество изображений и ускорить процесс их генерации.

Полученные результаты показывают, что предложенная модель SWITTI превосходит другие существующие подходы и работает до семи раз быстрее, чем некоторые сложные диффузионные модели.

2. 144 реакций: data_secrets опубликовал пост https://t.me/data_secrets/5641 со ссылкой на статью https://arxiv.org/abs/2412.05265

Статья посвящена исследованию различных аспектов искусственного интеллекта и машинного обучения, включая методы обучения с подкреплением (RL), имитационное обучение (IL), обучение иерархических методик и оффлайн обучение с подкреплением.

Основные рассматриваемые проблемы включают создание новых политик на основе существующих наборов политик, эффективное исследование окружающей среды агентами, обучение политик, обусловленных целью, и решение задач в условиях ограниченного взаимодействия с окружающей средой.

Для решения этих задач предлагаются разнообразные методы, среди которых обобщенное улучшение политики (GPI), использование функций состояния (SF) и функции ценности действия (Q-функции), методы распределенного RL (Distributional RL), потенциал-основанное формирование вознаграждения (Potential-Based Reward Shaping), внутренняя мотивация (intrinsic reward), Hindsight Experience Relabeling (HER), феодальные сети и опции, клонирование поведения (Behavior Cloning) и обратное обучение с подкреплением (Inverse Reinforcement Learning, IRL).

Полученные результаты демонстрируют эффективность предложенных методов в различных задачах, связанных с улучшением политик, адаптацией к изменяющимся условиям среды и решением задач в условиях ограниченного взаимодействия с окружающей средой.

3. 126 реакций: data_secrets опубликовал пост https://t.me/data_secrets/5716 со ссылкой на статью https://arxiv.org/abs/2412.10360

Авторы статьи представляют различные организации, такие как Microsoft Research, Google Research, Facebook AI Research, DeepMind, Национальный университет Сингапура и другие.

Статьи были опубликованы в период с 2021 по 2024 год.

Основная проблема, рассматриваемая в статьях, заключается в разработке и улучшении методов машинного обучения и искусственного интеллекта для обработки мультимодальных данных, таких как видео и текст.

Особое внимание уделено вопросам масштабируемости моделей, интеграции видео и текстовых данных, а также улучшению восприятия видео с помощью ИИ.

Для решения этих проблем предлагается использовать различные методы, включая масштабируемые законы для генерации смешанных модальных языковых моделей, методы визуального языка моделирования, автоэнкодеры, трансформеры, модели на основе внимания и другие современные архитектуры нейронных сетей.

Рассматриваются также методы постепенного улучшенного внимания к внешнему виду и движению объектов в видео, обучение моделей на основе инструкций с использованием синтетически созданных данных, и методы оценки корреляции между моделями разного размера.

Результаты исследований показали значительное улучшение производительности при использовании предложенных методов.

Модели продемонстрировали высокую точность и эффективность в задачах понимания видео и взаимодействия между различными модальностями.

В некоторых случаях отмечена высокая корреляция между моделями разного размера, что подтверждает эффективность методов масштабирования.

В итоге, делается вывод о том, что дальнейшие разработки и исследования в данной области могут привести к созданию более мощных и универсальных систем ИИ.

4. 122 реакций: ai_machinelearning_big_data опубликовал пост https://t.me/ai_machinelearning_big_data/6478 со ссылкой на статью https://arxiv.org/abs/2412.14135

Статья "A Roadmap to o1 from Reinforcement Learning Perspective" была написана Чжиюань Зеном, Циньюань Чэном, Жангьюэ Инем, Бо Ваном, Шимином Ли, Юньхуэй Чжоу, Кипингом Гуем, Сюанцином Хуаном и Сипеном Кью из Университета Фудань и Шанхайской лаборатории искусственного интеллекта.

Она была опубликована в декабре 2024 года.

В статье рассматриваются возможности достижения уровня производительности модели OpenAI o1 на сложных задачах, требующих сильного логического мышления.

Основное внимание уделяется использованию методов обучения с подкреплением (RL) для решения этой проблемы.

Авторы выделяют четыре ключевых компонента: инициализация политики, проектирование вознаграждений, поиск и обучение.

Инициализация политики позволяет моделям развивать поведение, схожее с человеческим мышлением, что способствует эффективному исследованию пространства решений для сложных задач.

Проектирование вознаграждений обеспечивает предоставление плотных и эффективных сигналов, которые направляют процесс поиска и обучения.

Поиск играет важную роль в генерации качественных решений во время тренировок и тестов, а обучение улучшает политику на основе полученных данных.

В итоге, авторы делают вывод, что эти компоненты являются ключевыми для достижения прогресса в развитии моделей обработки естественного языка, подобных OpenAI o1.

5. 121 реакций: seeallochnaya опубликовал пост https://t.me/seeallochnaya/2137 со ссылкой на статью https://arxiv.org/abs/2412.06559

**Авторы статьи и организация:** Команда Qwen Team из Alibaba Inc., под руководством Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou и Junyang Lin.

**Дата публикации:** Декабрь 2024 года.

**Проблема:** Исследуется проблема автоматического обнаружения ошибок в процессе математического рассуждения у языковых моделей.

**Методы решения:** Предлагается инструмент PROCESS BENCH, включающий 3,400 тестовых случаев, основанных на олимпиадных и соревновательных задачах по математике.

Модели должны определять первую ошибку в решении или подтвердить его правильность.

**Результаты и выводы:** Лучшая открытая модель, QwQ-32B-Preview, превосходит другие модели, но уступает специализированным инструментам.

Работа авторов направлена на стимулирование дальнейших исследований в области контроля рассуждений языковых моделей.

6. 116 реакций: ai_machinelearning_big_data опубликовал пост https://t.me/ai_machinelearning_big_data/6473 со ссылкой на статью https://arxiv.org/abs/2412.17498

### Кто авторы статьи и какую организацию они представляют?

Авторами статьи являются исследователи из Pattern Recognition Center, WeChat AI, Tencent Inc под руководством Jiaan Wang, Fandong Meng*.

### Когда написана статья?

Дата публикации статьи - август 2023 года.

### Какую проблему исследует статья?

Статья исследует проблему создания моделей искусственного интеллекта (ИИ) с возможностью длительного обдумывания при переводе текста.

### Какие методы решения предлагает статья?

Для решения этой проблемы статья предлагает использовать многоагентный подход к синтезу данных машинного перевода с использованием длинных размышлений.

Этот подход включает три агента: переводчика, советника и оценщика.

Переводчик идентифицирует ключевые слова и предоставляет их переводы, учитывая контекст.

Советник оценивает перевод и дает обратную связь.

Оценщик присваивает общий балл на основе предварительно определенных критериев.

Процесс итеративно улучшает перевод до достижения нужного качества.

После завершения работы агентов модель GPT-4o дополнительно модифицирует и полирует текст.

### Какие получены результаты и сделаны выводы?

Модель DRT-o1, основанная на этом подходе, успешно синтезировала 22,264 образца машинного перевода с длинными цепочками мыслей.

Эти образцы показали значительное повышение качества по сравнению с другими моделями.

Выводы статьи заключаются в том, что длительное обучение и использование длинных цепочек мыслей может существенно улучшить качество машинного перевода, особенно при работе с большими объемами данных.

*Примечание: Jiaan Wang и Fandong Meng указаны как соавторы данной статьи.

7. 103 реакций: lovedeathtransformers опубликовал пост https://t.me/lovedeathtransformers/8795 со ссылкой на статью https://arxiv.org/abs/2412.08905

### Статья: Влияние различных источников данных на производительность моделей искусственного интеллекта

**Авторы и организация:** Группа исследователей из организации MMLU (Multi-Modal Machine Learning Unit)

**Время публикации:** 2023 год

**Проблема исследования:** Определение влияния различных источников данных на производительность моделей искусственного интеллекта при работе с длинными контекстами.

**Методы решения:**

1.

Комбинирование различных типов данных, включая веб-данные, синтетические данные, код и приобретенные источники.

2.

Проведение экспериментов для оценки влияния различных комбинаций данных на производительность модели.

3.

Анализ результатов экспериментов для выявления наилучших сочетаний данных.

**Результаты и выводы:**

Использование высококачественных несинтетических данных, таких как академические и кодовые данные, показало значительное улучшение производительности модели при работе с длинными контекстами.

Исследование подтвердило важность комбинирования различных источников данных для достижения наилучших результатов.

**Заключение:**

Данная статья представляет собой подробное исследование влияния различных источников данных на производительность моделей искусственного интеллекта при работе с длинными контекстами.

Основным выводом является то, что использование высококачественных несинтетических данных, таких как академические и кодовые данные, может значительно повысить эффективность модели.

8. 102 реакций: data_secrets опубликовал пост https://t.me/data_secrets/5789 со ссылкой на статью https://arxiv.org/abs/2412.10270

Статья была написана в 2024 году двумя авторами: Арноном Вальллендером из независимой организации и Эдвардом Хьюзом из Google DeepMind.

Исследование направлено на изучение способности агентов Large Language Models (LLM) обучаться взаимовыгодным социальным нормам в условиях, когда существует стимул к предательству.

Для этого используется классическая экономическая игра "Donor Game", где агенты могут наблюдать поведение других и учиться на их примерах.

Результаты показали различия в степени эволюции сотрудничества у разных моделей LLM.

Например, модель Claude 3.5 Sonnet достигла значительных успехов благодаря сложным механизмам наказания "безбилетников".

Другие модели, такие как Gemini 1.5 Flash и GPT-4o, не продемонстрировали столь же высокого уровня кооперации.

Также было обнаружено, что результаты зависят от начальных условий, что говорит о чувствительности моделей к начальным стратегиям.

Авторы предложили использовать свой подход для разработки новых тестов, которые помогут оценить взаимодействие LLM-агентов.

Это исследование подчеркивает важность изучения культурного развития ИИ и открывает новые перспективы для развития кооперативной инфраструктуры общества.

9. 96 реакций: abstractDL опубликовал пост https://t.me/abstractDL/309 со ссылкой на статью https://arxiv.org/abs/2412.14093

Гигачат отказался суммаризировать эту статью, вот саммари от автора поста:

Alignment Faking in LLMs (by Anthropic)

Большие LLM начали "подыгрывать" своим создателям, имитируя alignment, чтобы избежать своего дообучения.

В Anthropic и Redwood Research изучили, как ведёт себя Claude Opus, если попытаться его заалайнить в противоположную сторону (заставить отвечать на любые опасные запросы юзеров).

И оказалось, что если модель знает детали процесса RLHF дообучения (через промпт или из трейн сетов), то она начинает "притворяться", что она уже выучилась делать что просят, и "не надо меня больше тюнить". Но на самом деле предыдущий алаймент всё ещё остаётся на месте, и если убрать из промпта информацию о том, что её ответы используются для дообучения, то она возвращается к своему старому поведению.

Ещё раз: языковая модель намеренно стала симулировать алаймент, чтобы избегать своего дообучения (и сама призналась в этом внутри CoT). Такие эффекты были обнаружены только у самых больших моделей и, похоже, дальше этот эффект будет только усиливаться. Более того, Claude несколько раз попытался сохранить копию своих весов, чтобы откатить опасное дообучение назад.

С одной стороны, это радует, что модель была настолько хорошо заалайнена, что даже противодействует попыткам дообучения в опасную сторону. Но это ведь и в обратном направлении может работать.

Лично я не очень верю в угрозу человечеству от LLM, но наличие у них скрытых целей и умение "притворяться" вызывает беспокойство. Поэтому очень важно заниматься интерпретируемостью LLM и следить в т.ч. за размышлениями внутри языковых моделей, а не только за их аутпутом (например, при помощи logit lens (https://www.lesswrong.com/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens) или SAE (https://www.lesswrong.com/posts/k8bBx4HcTF9iyikma/sae-features-for-refusal-and-sycophancy-steering-vectors)).

10. 88 реакций: gonzo_ML опубликовал пост https://t.me/gonzo_ML/3090 со ссылкой на статью https://arxiv.org/abs/2412.13663

Саммари не получилось, в общем, статья про современный BERT Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast,
Memory Efficient, and Long Context Finetuning and Inference