39 подписчиков

Я поторопился с оценкой GPT-5.4 относительно корректной редактуры больших текстов

12 марта12 мар

1 мин

По факту проблема деградации большого контекста существует как у Google Gemini, так и в chatGPT. Хотя оба анонсируют контекстное окно в 1 миллион токенов, это, конечно, больше похоже на маркетинг. По факту можно наблюдать серьезную деградацию при обработке больших текстов. Все заявленные объемы контексты не работают напрямую, разумеется, если мы хотим получить качество. Я тестировал объемы почти в 160 килобайт - это почти 50 страниц или около 90 тыс. знаков. Уже после 15 кило знаков начинается деградация: сначала менее заметная, а после где-то 30% — там уже все очень плохо. То есть это непригодно. Вообще. В результате пришлось создать довольно сложную утилиту, которая разбивает текст на фрагменты, затем собирает их умным образом. Она работает в тестовом режиме и уже не опирается на обычную подписку, а использует API. Она дает удовлетворительные результаты и способна работать с текстами практически неограниченной длины. Последовательно обрабатывает текст 100 килобайт, 1 мегабайта

Я поторопился с оценкой GPT-5.4 относительно корректной редактуры больших текстов. По факту проблема деградации большого контекста существует как у Google Gemini, так и в chatGPT. Хотя оба анонсируют контекстное окно в 1 миллион токенов, это, конечно, больше похоже на маркетинг. По факту можно наблюдать серьезную деградацию при обработке больших текстов. Все заявленные объемы контексты не работают напрямую, разумеется, если мы хотим получить качество.

Я тестировал объемы почти в 160 килобайт - это почти 50 страниц или около 90 тыс. знаков. Уже после 15 кило знаков начинается деградация: сначала менее заметная, а после где-то 30% — там уже все очень плохо. То есть это непригодно. Вообще.

В результате пришлось создать довольно сложную утилиту, которая разбивает текст на фрагменты, затем собирает их умным образом. Она работает в тестовом режиме и уже не опирается на обычную подписку, а использует API.

Она дает удовлетворительные результаты и способна работать с текстами практически неограниченной длины.

Последовательно обрабатывает текст 100 килобайт, 1 мегабайта, 10 мегабайт и так далее, не деградируя в качестве. Причем она занимается очисткой, разметкой и структурированием. Однако это, конечно, требует некоторых ресурсов.

Т.е. это уже ближе к начальной редактуре. Следующий уровень - семантическая смысловая редактура, чтобы приблизится к человеку. До этого, конечно, далеко, но время для человека она изрядно сэкономит.

Я делал тесты на 220 килобайт, и расшифровки, созданные в последнем стриме, уже сделаны с помощью этой утилиты. Для всего объема текста, который там был, практически на два видео (более 2 часов в сумма) , потребовалось примерно 3$. Это небольшая цена за качество при общем объеме почти 220К текста, это примерно 65-70 стандартных книжных страниц.

Гаджеты и электроника

5,73 млн интересуются