Сжатие данных является неотъемлемой частью современного цифрового мира. Без него мы бы столкнулись с огромными затратами на хранение и передачу информации. Благодаря сжатия мы можем легко получать доступ к огромным объемам данных из Интернета, хранить музыку, фотографии и видео на одном устройстве, а также обмениваться файлами без проблем.
Одним из главных преимуществ сжатия данных является повышение цифровой безопасности. Когда мы передаем информацию, сжатие позволяет нам защитить данные от несанкционированного доступа. Это особенно важно при передаче конфиденциальной информации, такой как банковские данные или личные сведения.
Кроме того, сжатие данных играет важную роль в ускорении анализа больших объемов информации. Благодаря сжатию, мы можем сократить время, необходимое для обработки и анализа данных, что позволяет нам получать результаты быстрее и более эффективно.
Исследователи из DeepMind недавно объявили, что обнаружили, что большие языковые модели могут вывести сжатие данных на новый уровень. Их модель Chinchilla 70B (Будем звать её Шиншилла) достигла удивительной степени сжатия, что открывает новые возможности для более эффективного хранения и передачи информации.
Изображения были сжаты до 43,4% от исходного размера, а аудиоданные — до 16,4% от исходного размера. Для сравнения, стандартный алгоритм сжатия изображений PNG сжимает изображения до 58,5% от исходного размера, а компрессоры FLAC уменьшают аудиофайлы до 30,3%.
Результаты были особенно впечатляющими, потому что в отличие от PNG и FLAC, которые были разработаны специально для изображений и аудио, Шиншилла была обучена работать с текстом, а не с другими медиа.
Их исследования также выявили другой взгляд на законы масштабирования, то есть на то, как меняется качество сжатия при изменении размера сжатых данных.
Источник:
Грегуар Делетанг и др., Языковое моделирование — это сжатие (Grégoire Delétang et al, Language Modeling Is Compression), arXiv (2023). DOI: 10.48550/arxiv.2309.10668.
Благодарю за чтение! Если понравилась статья, то предлагаю подписаться, будет ещё много таких. Есть мысли по предмету статьи и не только - приглашаю в комментарии. Также, если интересно, можете ознакомиться со страницами нашего проекта на других платформах, ссылки найдёте в описании канала. Кроме того, у меня есть страница на сервисе поддержки авторов Бусти, просто сообщаю, поддержка - дело добровольное, ссылка так же в описании канала.