1 подписчик

AI дайджест русского TG за Ноябрь 2024

25 декабря 202425 дек 2024

14 мин

1. 739 реакций: gonzo_ML опубликовал пост https://t.me/gonzo_ML/3046 со ссылкой на статью https://arxiv.org/abs/2411.07191 Авторы первой статьи – Менься Ю, Де Ван, Ци Шан, Колорадо Рид и Алвин Ван из Университета Нотр-Дам и компании Apple. Вторая статья представлена авторами Jung Hwan Heo, Jeonghoon Kim, Beomseok Kwon, Byeongwook Kim, Se Jung Kwon и Dong-soo Lee. Обе статьи были написаны в 2024 году. Первая статья исследует важность небольшого числа параметров («супер весов») в больших языковых моделях (LLM). Эти параметры играют критическую роль в качестве генерации текста, и их удаление может значительно ухудшить работу модели. Для выявления этих параметров предлагается анализировать активации модели без использования дополнительных данных. Результаты показывают, что сохранение точности «супер весов» и связанных с ними активаций улучшает методы квантования, делая их более эффективными. Вторая статья посвящена решению проблемы квантования весов LLM при использовании низкого числа бит.

1. 739 реакций: gonzo_ML опубликовал пост https://t.me/gonzo_ML/3046 со ссылкой на статью https://arxiv.org/abs/2411.07191

Авторы первой статьи – Менься Ю, Де Ван, Ци Шан, Колорадо Рид и Алвин Ван из Университета Нотр-Дам и компании Apple.

Вторая статья представлена авторами Jung Hwan Heo, Jeonghoon Kim, Beomseok Kwon, Byeongwook Kim, Se Jung Kwon и Dong-soo Lee.

Обе статьи были написаны в 2024 году.

Первая статья исследует важность небольшого числа параметров («супер весов») в больших языковых моделях (LLM).

Эти параметры играют критическую роль в качестве генерации текста, и их удаление может значительно ухудшить работу модели.

Для выявления этих параметров предлагается анализировать активации модели без использования дополнительных данных.

Результаты показывают, что сохранение точности «супер весов» и связанных с ними активаций улучшает методы квантования, делая их более эффективными.

Вторая статья посвящена решению проблемы квантования весов LLM при использовании низкого числа бит.

Авторы предлагают метод изоляции выбросов (outliers), чтобы минимизировать их негативное влияние на точность модели после квантования.

Они разработали новый подход к определению размеров каналов, который помогает улучшить точность квантованных моделей и повысить их стабильность даже при низком числе бит квантования.

Оба исследования подчеркивают важность правильного управления параметрами и активациями в больших языковых моделях для поддержания высокого качества их работы.

2. 505 реакций: data_secrets опубликовал пост https://t.me/data_secrets/5507 со ссылкой на статью https://arxiv.org/abs/2411.02820

Статья «DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving» была написана авторами из Университета Чикаго и Microsoft в 2024 году.

Авторы исследуют проблему неэффективности работы систем, использующих несколько крупных языковых моделей (LLM) одновременно, что приводит к избыточным вычислениям и снижению производительности.

Для решения этой проблемы предлагается метод DroidSpeak, который оптимизирует обмен контекстами между разными моделями, основанными на одной базовой модели.

Этот подход использует промежуточные данные, такие как встраивания и кэш ключевых значений (KV-кэш), чтобы минимизировать повторяющиеся вычисления, сохраняя при этом высокую точность.

Экспериментальные результаты показывают, что применение метода DroidSpeak увеличивает пропускную способность системы до трех раз и сокращает время предварительной обработки до 2.6 раз без существенной потери точности.

Это делает DroidSpeak эффективным способом оптимизации работы многоагентных систем на базе LLM.

Метод был протестирован на нескольких парах моделей, включая Mistral-7B, Llama-3-8B, Phi-3.5-mini и Llama-3.1-70B, предварительно обученных на задачах математического вывода, улучшения чатов и многопроходного логического вывода.

Качество оценивали с помощью метрики F1 на наборе данных LongBench, состоящем из 650 контекстов.

Результаты подтвердили значительное снижение задержки при сохранении высокого качества генерации текста, что делает DroidSpeak перспективным методом для повышения эффективности языковых моделей в реальных приложениях.

Кроме того, статья обсуждает важность управления переходными точками между фазами повторного использования и перерасчета для достижения баланса между производительностью и точностью системы.

3. 359 реакций: j_links опубликовал пост https://t.me/j_links/7758 со ссылкой на статью https://arxiv.org/abs/2411.04872

Статья «Frontier Math: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI» была написана группой исследователей, среди которых Elliot Glazer, Ege Erdil, Tamay Besiroglu, а также известные математики, такие как Теренс Тао, Тимоти Гауэрс, Ричард Борчердс и Эван Чен.

Они представляют учреждения, включая King's College London, MIT и UC Berkeley.

Статья была опубликована в декабре 2024 года.

Основная проблема, которую рассматривает статья, связана с недостатком надежных инструментов для оценки возможностей современных ИИ-систем в решении сложных математических задач, требующих глубокого теоретического понимания и креативного подхода.

Текущие бенчмарки, такие как MATH и GSM8K, уже не позволяют адекватно оценивать продвинутые способности ИИ, так как модели достигают почти идеального результата на этих тестах.

Для решения этой проблемы авторы предлагают новый бенчмарк под названием FrontierMath, который состоит из сотен уникальных и сложных математических задач, разработанных и проверенных опытными математиками.

Задачи охватывают различные области современной математики, от теории чисел до алгебраической геометрии.

Решение одной такой задачи может потребовать нескольких часов или даже дней работы эксперта.

Новый бенчмарк использует оригинальные, ранее не опубликованные задачи и автоматизированные методы проверки, чтобы минимизировать риск загрязнения данных при обучении моделей и обеспечить точную оценку их способностей.

В настоящее время лучшие современные ИИ-модели решают менее 2% задач, что подчеркивает существенный разрыв между возможностями ИИ и человеческими математическими навыками.

В заключение авторы делают вывод, что FrontierMath представляет собой строгий инструмент для измерения прогресса ИИ-систем в достижении уровня экспертов в математике.

4. 290 реакций: abstractDL опубликовал пост https://t.me/abstractDL/303 со ссылкой на статью https://arxiv.org/abs/2411.14257

Авторы статьи – Javier Ferrando из UPC и Oscar Obeso из ETH Zürich.

Статья была написана в 2024 году.

В работе исследуется проблема галлюцинаций в больших языковых моделях (LLM).

Галлюцинациями называют случаи, когда модель генерирует текст, который не соответствует реальности или доступным данным, что особенно критично в приложениях, где требуется высокая точность, например, в здравоохранении.

Для анализа этой проблемы авторы использовали метод Sparse Autoencoders (SAE).

Они обнаружили, что у моделей есть внутренние представления о своих знаниях, и эти представления влияют на их поведение при генерации текста.

Например, если модель осознает свою неспособность ответить на вопрос, она может отказаться от ответа вместо того, чтобы создавать ложную информацию.

Результаты показывают, что даже после дообучения, направления, выявленные методом SAE, продолжают влиять на поведение модели.

Открытие этих направлений открывает новые возможности для понимания механизмов галлюцинаций и разработки методов предотвращения таких ошибок.

Таким образом, исследование делает важный шаг вперед в понимании внутренних процессов больших языковых моделей и предоставляет инструменты для повышения их надежности и точности.

5. 161 реакций: data_secrets опубликовал пост https://t.me/data_secrets/5415 со ссылкой на статью https://arxiv.org/abs/2411.01582

Авторы статьи – Шапенг Цзян, Лиджия Вей и Чен Чжан из Уханьского университета.

Статья была опубликована 5 ноября 2024 года.

В работе рассматривается использование больших языковых моделей (LLM) для имитации ответов людей в опросах и прогнозировании результатов выборов на основе демографических данных.

Основная проблема исследования заключается в разработке методов моделирования мнений и ценностей участников опросов без явного стимулирования.

Для этого предлагаются современные LLM, такие как ChatGPT-4o, для проведения экспериментов и опросов, что позволяет сократить расходы и получить важные данные о человеческом поведении.

Методология включает симуляцию ответов людей на вопросы о социокультурных темах и доверии, а также прогнозирование итогов выборов в США.

Модель генерирует синтетические ответы, демонстрируя высокую степень соответствия реальным ответам участников опросов из США и Китая.

Прогнозирование использует исторические данные для моделирования поведения избирателей и предсказания исхода выборов 2024 года.

Результаты показывают, что LLM успешно воспроизводят культурные различия между странами, обеспечивают точность прогнозов внутри выборки и дают реалистичные прогнозы за пределами выборки.

Это подчеркивает потенциал LLM как экономически выгодного инструмента для проведения опросов.

Заключение статьи отмечает, что дальнейшее совершенствование LLM может повысить их эффективность при решении сложных задач, связанных с моделированием опросов, где вопросы могут быть менее определенными, а участники руководствоваться своими ценностями и убеждениями.

6. 140 реакций: lovedeathtransformers опубликовал пост https://t.me/lovedeathtransformers/8578 со ссылкой на статью https://arxiv.org/abs/2411.03361

Авторами статьи "Age-Normalized Testosterone Peaks at Series B for Male Startup Founders" являются Jordan Moradian, Michael Dubrovsky, Megha Sama, Pavel Korecky, Sidarth Kulkarni, Yaniv Goder и Diedrik Vermeulen из компании SiPhox Health.

Статья была опубликована в ноябре 2024 года.

Основная цель исследования — изучить влияние уровня тестостерона у основателей стартапов на их успех при привлечении инвестиций.

В ходе работы была обнаружена интересная корреляция между уровнем тестостерона и стадией развития стартапа.

Так, уровень тестостерона резко возрастает на 55,7% от стадии pre-seed до seed и достигает своего максимума на этапе серии B, где он оказывается на 99,6% выше, чем на начальном этапе.

Однако после прохождения этой стадии уровень тестостерона снижается на 42,2%.

Для проведения анализа исследователи использовали данные 107 основателей-мужчин, участвовавших в программе Y Combinator.

Основатели предоставляли образцы крови, что позволяло измерять уровни различных гормонов, включая тестостерон и кортизол.

Полученные результаты подтверждают гипотезу о том, что начальные успехи стартапа усиливают чувство уверенности и доминирования у основателей, тогда как стресс и давление на более поздних этапах могут приводить к снижению этих чувств.

Кроме того, есть предположение, что основатели с высоким уровнем тестостерона могут быть более успешны в привлечении крупных инвестиционных раундов.

В итоге исследование выявляет важные закономерности в изменениях гормонального фона основателей стартапов в зависимости от стадии развития их компаний, что может существенно повлиять на понимание динамики успеха стартапов.

7. 135 реакций: data_secrets опубликовал пост https://t.me/data_secrets/5456 со ссылкой на статью https://arxiv.org/abs/2411.10440

Статья под названием «LLaVA-CoT: Let Vision Language Models Reason Step-by-Step» была написана исследователями Гуовей Сю, Пэн Цзинь, Хао Ли, Ибин Сонг, Личао Сун и Ли Юань.

Авторы представляют различные организации, среди которых Пекинский университет, Институт междисциплинарных информационных наук Университета Цинхуа и DAMO Academy от Alibaba Group.

Работа была представлена в ноябре 2024 года.

Основная цель исследования заключается в улучшении многоэтапного рассуждения в моделях, обрабатывающих визуальную и языковую информацию.

Современным моделям сложно проводить систематическое и структурированное рассуждение, особенно в сложных задачах визуального вопроса-ответа.

Для этого авторы разработали модель LLaVA-CoT, которая разделяет процесс рассуждения на этапы: обобщение, интерпретация изображений, логический вывод и генерация заключения.

Обучение модели проводилось на наборе данных LLaVA-CoT-100k, который содержит примеры визуальных вопросов и ответов с аннотациями процесса рассуждения.

Применялся метод поиска по лучам на уровне этапов, что позволило эффективно масштабировать модель во время выполнения.

Эксперименты показали значительное улучшение точности модели LLaVA-CoT по сравнению с базовыми версиями – прирост составил 8,9%.

Кроме того, новая модель превзошла более крупные и сложные аналоги, такие как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

Исследователи подчеркивают важность интегрирования языковых и визуальных моделей для повышения эффективности рассуждений и точности в решении сложных мультимодальных задач.

В целом, исследование демонстрирует эффективность структурированного подхода к рассуждению и его положительное влияние на точность и надежность решений в мультимодальных задачах.

8. 131 реакций: ai_machinelearning_big_data опубликовал пост https://t.me/ai_machinelearning_big_data/6185 со ссылкой на статью https://arxiv.org/abs/2411.14405

Статья написана командой исследователей под руководством Yu Zhao, представляющих компанию Alibaba International Digital Commerce.

Работа датирована ноябрем 2024 года.

Исследование сосредоточено на улучшении способности крупных языковых моделей (LRM) решать открытые задачи, где отсутствует четкий стандарт ответа и сложно оценивать вознаграждение.

Основной целью является проверка возможности эффективного обобщения модели на более широкий спектр областей без явных стандартов оценки.

Для достижения этой цели используются такие методы, как Chain-of-Thought (CoT) дообучение, метод Монте-Карло для поиска дерева решений (MCTS), а также механизмы рефлексии и новые стратегии рассуждения.

Эти подходы были адаптированы для работы со сложными реальными задачами.

Результаты исследования показали эффективность применения модели в мультиязычных приложениях, однако точные детали успеха не раскрыты.

Основные выводы заключаются в том, что предложенная модель Marco-o1 продемонстрировала хорошие результаты в решении сложных задач, особенно благодаря использованию методов MCTS и CoT.

Однако модель все еще нуждается в дальнейшем развитии и совершенствовании.

Также упоминается другая часть исследования, касающаяся использования модели Marco-o1 для перевода коллоквиальных выражений.

В этом контексте подчеркивается важность учета культурных особенностей и нюансов языка для сохранения смысла и эмоциональной окраски исходного текста.

Результаты подтверждают успешность применения открытой модели рассуждений для таких лингвистических задач.

9. 131 реакций: seeallochnaya опубликовал пост https://t.me/seeallochnaya/2031 со ссылкой на статью https://arxiv.org/abs/2411.10323

Авторы статьи *"The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use"* — Siyuan Hu, Mingyu Ouyang, Difei Gao и Mike Zheng Shou из Show Lab, Национального университета Сингапура.

Статья была написана в ноябре 2024 года.

Основная проблема, которую исследуют авторы, связана с применением модели искусственного интеллекта Claude 3.5 для автоматизации задач на рабочем столе через графический интерфейс пользователя (GUI).

Они предлагают использовать агентскую модель, которая будет автоматически взаимодействовать с GUI через API.

Разработан открытый фреймворк, упрощающий внедрение данной модели.

Результаты исследования показывают, что Claude 3.5 может успешно выполнять задачи на рабочем столе от начала до конца.

Однако выявлены определенные ограничения, требующие дальнейшего анализа и улучшений.

В заключение подчеркивается, что данное исследование открывает новые перспективы для разработки агентов с графическим интерфейсом и акцентирует внимание на вопросах планирования действий и критического осмысления результатов, важных для таких систем.

Также упоминается другая работа под авторством Хаотяна Лю, Чуньяна Ли, Циняна Ву и Йонга Джея Ли, опубликованная в 2023 году.

Эта статья посвящена улучшению точности воспроизведения человеческого поведения за компьютером с помощью ИИ.

Предложены два метода: использование строгого критика для самоконтроля и улучшение тренировочных данных.

Результаты показали эффективность этих методов, особенно в контексте автоматизации компьютерных задач.

Еще одно исследование, представленное авторами Джингом Ю Ко, Стивеном Макалером, Дэниелом Фридом и Русланом Салахутдиновым из Университета Карнеги-Меллона и компании Anthropic, было опубликовано в 2024 году.

Оно фокусируется на интеграции поиска решений на основе деревьев в работу языковых моделей для улучшения их способности принимать обоснованные решения при взаимодействии с пользователями.

Были предложены подходы "React" и "Tree Search for Language Model Agents" (TS-LMA), показавшие значительные улучшения в качестве взаимодействия моделей с пользователями.

10. 125 реакций: seeallochnaya опубликовал пост https://t.me/seeallochnaya/1996 со ссылкой на статью https://arxiv.org/abs/2411.02272

Статья, написанная исследователями из университетов Cornell и Shanghai Jiao Tong University, а также компаниями Basis и Autodesk, рассматривает проблему обобщения моделей машинного обучения при малом количестве данных.

Работа датируется декабрем 2024 года.

Основное внимание уделяется сравнению методов индукции и трансдукции на задачах абстрактного мышления из набора данных Abstraction and Reasoning Corpus (ARC).

Индуктивный метод строит функцию, которая объясняет примеры, тогда как трансдуктивный метод напрямую предсказывает выходные данные без явной конструкции функции.

Исследования проводились на синтетически сгенерированных программах на Python, которые решали задачи из набора данных ARC.

Установлено, что индуктивные модели лучше работают с точными вычислениями и сложными концепциями, а трансдуктивные – с задачами восприятия.

Комбинирование обоих методов показало высокую эффективность, приближенную к человеческой, на наборе данных ARC.

Также рассматривалось обучение нейронных сетей для индуктивного и трансдуктивного подходов.

Оба метода дополняют друг друга, демонстрируя практическую пользу от их совместного использования.

Тестирование проводилось на большом наборе данных функций, начиная с генерации детерминированной функции на Python и заканчивая созданием входов-выходов.

Результаты подтвердили, что комбинированное использование индуктивных и трансдуктивных моделей эффективно даже при обучении на одних и тех же проблемах.

Обсуждалась и проблема обучения с малым числом примеров (few-shot learning), где нейронные модели сопоставляли входы из пространства X к выходам в пространстве Y.

Использовались две модели: индуктивная, предсказывающая функцию f, отображающую X в Y, и трандуктивная, предсказывающая выход y_test для тестового входа x_test на основе тренировочных данных.

Модели инициализировались с помощью предварительно обученной языковой модели Llama3.1-8B-instruct.

В итоге авторы пришли к выводу, что комбинация методов индукции и трансдукции существенно повышает обобщающую способность моделей в условиях ограниченных обучающих данных.