Компания Google объявила об открытии кода проекта Magika, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения опубликованы под лицензией Apache 2.0. От похожих проектов, определяющих MIME-тип по содержимому, Magika отличается применением методов машинного обучения, высокой производительностью и отменной точностью определения. Модель обучена с использованием фреймворка Keras на 25 млн примеров файлов и поддерживает распознавание 116 типов данных с точностью не менее 99%. Модель скомпонована в формате ONNX и имеет размер всего 1 МБ. Задействование методов глубокого машинного обучения позволило на 50% повысить точность определения по сравнению с ранее применявшейся в Google системой н
Google открыл код AI-системы Magika для определения типа содержимого файлов
18 февраля 202418 фев 2024
13
1 мин