3081 подписчик
Эксперимент по использованию Chat GPT
Для информации в контексте MDM - сегодня провели эксперимент по использованию Chat GPT в части решения задачи по обработки сырых данных и поиска дублей.
На входе пытались "скормить" Чату перечисленные через запятую необработанные элементы из бытовой химии (около 200 шт.) с заранее подготовленными дублями.
Результаты такие:
1. Несмотря на заявленные им же самим отсутствующими ограничениями по длине одного сообщения, скормить сразу все данные (около 7000 символов) не удалось. Пришлось несколько раз пересоздавать диалоги, и в результате Чат мог справиться только где-то около с 3000 символами.
2. Запрос звучал так: "Я бы хотел, чтобы ты проанализировал массив данных, который я пришлю тебе ниже. Нужно определить дублирующие записи, сообщить, какие это конкретно записи, и посчитать их количество и процент от общего количества. Записи приведены через запятую" (да, стараюсь общаться вежливо, чтобы он меня пощадил в будущем 🙈😀)
Результат - он просто начал перечислять все элементы массива подряд, нумеруя их.
3. После экспериментов с запросами и объемом массива для анализа пришли к следующему варианту: "Привет, ниже приведен массив строк. Каждое новое значение записано на новой строке. Найди в нем значения, которые повторяются дважды. Алгоритм поиска писать не нужно, просто найди значения и выведи их.
Массив: <8 элементов с 1 дублем>" (фраза про алгоритм была для того, чтобы он сразу не начал писать код на Python)
В результате он выдал 2 "дубля" (1. Dr.Aktiv Средство концентрированное для мытья окон, зеркал и стеклянных поверхностей Glanz 5 кг и Dr.Aktiv Средство концентр. для мытья окон, зеркал и стеклянных поверхностей Glanz plus 5 кг 2. Dr.Aktiv Средство чистящее для ковровых покрытий Universell 900мл (еврофлакон) и Dr.Aktiv Средство чистящее для ковровых покрытий Universell 900мл (еврофлакон)).
При этом, 1ый "дубль" вовсе не является дублем (разные марки "Glanz" и "Glanz plus"), а второй является, но по полному совпадению текста.
Поэтому, скорректировав запрос, на "выведи пожалуйста абсолютно одинаковые позиции", чат вывел тот самый заветный дубль.
Выводы:
Некоммерческая версия Чата пока не очень хорошо справляется с большими массивами данных для анализа.
Даже на маленьком объеме Чат ошибается, т.к. не может распознать различия в характеристиках/реквизитах элементов ("Glanz" и "Glanz plus"). Проблема в том, что нет понимания, как именно работает алгоритм, и соответственно непонятно, как скорректировать и уточнить запрос нужным образом.
В общем, пока что говорить о нормализации данных с использованием этого инструмента преждевременно. Но мы продолжим "копать" в направлении ИИ.
Если вы дочитали до конца, и у вас есть какие-то идеи в этом направлении (или вы знаете какие-то коммерческие ИИ-решения с API, которые уже умеют работать напрямую с 1С, то поделитесь этой информацией пожалуйста🤗)
Максим Шанцев
(руководитель отдела управления НСИ)
2 минуты
26 июня 2023