Есть такой момент в истории любой технологии, когда инженеры начинают тихо строить следующую — пока все ещё восхищаются текущей. Примерно это сейчас происходит с архитектурой, на которой работают ChatGPT, Claude и все остальные большие языковые модели. Называется она «трансформер». Придумали в 2017 году. С тех пор — полный захват мира. И вот проблема. Трансформер устроен так: когда он читает текст, каждое слово «смотрит» на все остальные слова в документе и решает, что важно, а что нет. Это и есть его суперсила — он видит связи между далёкими частями текста. Но за это приходится платить. Если текст вдвое длиннее — работы не вдвое больше, а вчетверо. Вчетверо длиннее — в шестнадцать раз больше. Такая вот математика. Для коротких сообщений это незаметно. Но когда нужно проанализировать целую книгу, кодовую базу из сотни файлов или часовую запись совещания — счётчик на серверах начинает крутиться с угрожающей скоростью. Именно поэтому большой контекст у Claude или GPT стоит дороже: буквал
ChatGPT скоро устареет: что строят вместо трансформеров
5 апреля5 апр
1
3 мин