147 подписчиков

"Машина времени" из викторианского Лондона: как энтузиаст обучил LLM на текстах 1800-1875 и зачем это нужно

13 января13 янв

2 мин

Представьте нейросеть, которая пишет и рассуждает так, будто живет в Лондоне XIX века. С газетной патетикой, религиозными отсылками и морализаторством - но без знаний о смартфонах, соцсетях и нашем привычном мире. Такой эксперимент реально сделали: студент и разработчик Hayk Grigorian собрал корпус лондонских текстов 1800-1875 годов и обучил на нем модель TimeCapsuleLLM. В англоязычной среде это обсуждали как "AI time travel". Обычный способ "состарить" текст простой: попросить современную LLM говорить "как викторианец", дать пару примеров и запретить упоминать современные технологии. Но такие модели часто срываются в знания XXI века - даже если стиль держат неплохо. В TimeCapsuleLLM подход другой. Автор описывает его как Selective Temporal Training (STT) - обучение на данных, жестко ограниченных временем и местом. Причем идея именно в обучении "с нуля", а не в дообучении готовой базы, которая уже успела "увидеть интернет". Проект рос итерациями: корпус увеличивался от сотен мегабайт

Оглавление

Что именно сделал автор и почему это не просто "промпт под старину"
Зачем это нужно и где самая опасная ловушка

Что именно сделал автор и почему это не просто "промпт под старину"

Обычный способ "состарить" текст простой: попросить современную LLM говорить "как викторианец", дать пару примеров и запретить упоминать современные технологии. Но такие модели часто срываются в знания XXI века - даже если стиль держат неплохо.

В TimeCapsuleLLM подход другой. Автор описывает его как Selective Temporal Training (STT) - обучение на данных, жестко ограниченных временем и местом. Причем идея именно в обучении "с нуля", а не в дообучении готовой базы, которая уже успела "увидеть интернет".

Проект рос итерациями: корпус увеличивался от сотен мегабайт на ранних версиях до гигабайт на следующих, а размеры моделей - от десятков миллионов параметров до сотен миллионов. Пайплайн частично опирался на nanoGPT, то есть это скорее "гаражная наука", где все собирается прозрачными скриптами и проверяется на практике.

Ключевая мысль: модель не "изображает" эпоху. Она живет внутри текстовой среды выбранного времени, поэтому будущее для нее просто не наступило.

Отсюда и самый понятный эффект: если данные обрезаны 1875 годом, модель почти не имеет устойчивых связей для понятий, которые станут массовыми позже. Ей не нужно запрещать "телефон" - в ее мире он почти не закреплен как повседневная реальность.

Зачем это нужно и где самая опасная ловушка

Сильная сторона исторических LLM не в том, чтобы "доказывать факты". Их ценность в другом: они хорошо воспроизводят язык эпохи - типичные аргументы, метафоры, риторику, стиль публичных споров. Поэтому сценарии применения выглядят вполне практично:

интерактивные музеи и "говорящие экспозиции", где персонаж отвечает в рамках времени, а не пересказывает справочник;
образование - диалоги и дебаты от лица современника (редактор газеты 1860-х, спор о бедности, морали, железных дорогах);
исследования - быстрые наброски "как это могло звучать", чтобы потом точнее искать в архивах и проверять по источникам.

Но есть ловушка, из-за которой такие модели легко использовать неправильно: текст звучит аутентично, и читатель автоматически доверяет ему больше, чем нужно.

Правдоподобно - не значит правдиво. Любую "историческую деталь" из такой модели нужно проверять по источникам.

И еще один приземленный момент: "нейросети прошлого" упираются в качество исторического текста. Многие источники доступны как сканы, старые шрифты или рукописи, так что рядом всегда стоит тема OCR и HTR. Чем лучше распознавание и чистка данных, тем меньше мусора попадет в корпус - и тем меньше модель будет уверенно "галлюцинировать" на основе ошибок оцифровки.

В итоге TimeCapsuleLLM показывает простую идею: если вы хотите историческую перспективу, мало попросить модель "говорить старинно". Ей нужно "видеть" и впитывать язык эпохи в обучении - тогда она перестает постоянно тянуть в ответы XXI век.

Небольшая авторская ремарка: если вы экспериментируете с нейросетями и вам нужен удобный доступ к разным моделям в одном месте, можно присмотреться к SYNTX AI