35 подписчиков

А вот интересное для размышления

4 марта4 мар

1 мин

Авторы статьи (ссылка внизу) предложили Vox Deorum — гибридную архитектуру для Civilization V, где LLM отвечает только за макростратегию, а всё микроисполнение (движение юнитов, тактика, очереди строительства, поиск пути) делает классический алгоритмический ИИ. Это решает две старые проблемы: RL-агенты часто «ломают» долгосрочные цели ради быстрых наград, а чистые LLM плохо справляются с точным исполнением, тратят много токенов и могут галлюцинировать. Вместо end-to-end управления LLM работает как «совет директоров»: получает сжатое описание состояния игры и выдаёт высокоуровневые директивы. Ключевой механизм — директивы LLM не превращаются в конкретные команды, а перенастраивают приоритеты нижнего уровня: фактически меняют веса в функции оценки решений алгоритмов (например, «фокус на войне» повышает ценность наступления и военного производства). Благодаря этому система стабильно играет полные партии до 400 ходов и по выживаемости/винрейту не уступает сильным оптимизированным бейзлайн

А вот интересное для размышления. Авторы статьи (ссылка внизу) предложили Vox Deorum — гибридную архитектуру для Civilization V, где LLM отвечает только за макростратегию, а всё микроисполнение (движение юнитов, тактика, очереди строительства, поиск пути) делает классический алгоритмический ИИ. Это решает две старые проблемы: RL-агенты часто «ломают» долгосрочные цели ради быстрых наград, а чистые LLM плохо справляются с точным исполнением, тратят много токенов и могут галлюцинировать. Вместо end-to-end управления LLM работает как «совет директоров»: получает сжатое описание состояния игры и выдаёт высокоуровневые директивы.

Ключевой механизм — директивы LLM не превращаются в конкретные команды, а перенастраивают приоритеты нижнего уровня: фактически меняют веса в функции оценки решений алгоритмов (например, «фокус на войне» повышает ценность наступления и военного производства). Благодаря этому система стабильно играет полные партии до 400 ходов и по выживаемости/винрейту не уступает сильным оптимизированным бейзлайнам. Главный вывод, полезный для бизнеса: LLM лучше масштабируется не как исполнитель микрозадач, а как стратег, который управляет автоматизированными процессами через приоритеты, правила и KPI.

***

Вероятно, что это логику можно раскатать не только на игровую реальность, но и вполне себе на бизнес-процессы.

***

Я упростил исходный пост https://t.me/gonzo_ML_podcasts/2612 Там есть ссылки на статью и расширенные мысли. Спасибо за ссылку Александру Диденко.