240 подписчиков

Ф1680 Теория условности языка и нормальные и аномальные ошибки в данных.

ВчераВчера

29 мин

Если текст строго упорядочен, то есть, помимо прочего, имеются название, заголовок, контекст, то это может не представлять особых проблем. Например, в литературном журнале публикуются художественные и поэтические тексты, а в научном — научные. И всё же разница порой может быть не столь значительна, если исходить из наивных способов различения и критериев подобного рода. Фигуры речи могут встречаться в значительном количестве и в тех, и в других текстах. При определённом анализе такие тексты могут быть неотличимы, разве что по тематике. Фетишизация определённого места может играть ведущую роль. Вопрос о том, что прежде — конвенция или природа, — в таком случае остаётся актуальным. И всё же кодировщик и декодировщик используют алгоритмы сжатия и развёртывания, декодирования и алгоритмы распознавания аномалий. Тривиально, что при построении автоэнкодера для сокращения размерности данных используется алгоритм оптимизации. В частности, для восстановления данных применяется функция потерь —

Тривиально, что при построении автоэнкодера для сокращения размерности данных используется алгоритм оптимизации. В частности, для восстановления данных применяется функция потерь — двойная кросс‑энтропия. Модель обучается на входных данных в течение n эпох. Среднеквадратичная ошибка между входными данными и их восстановленной версией после сжатия, вычисляемая в процессе обратного распространения ошибки на протяжении всех эпох обучения, приближает сеть к нужному результату.

Эти алгоритмы оптимизации и функции потерь можно использовать для обнаружения отклонений от нормы в любых стандартизированных данных о передачах и транзакциях. Это одновременно просто и сложно: для выявления аномальных образцов необходимо определить порог, используя перцентиль ошибок. Но можно использовать этот подход и для оценки афористичности и метафоричности текста.

Сложность заключается в том, что задача состоит в алгоритмическом определении перцентиля, а не в его интуитивной оценке «на глаз» — например, на уровне 95%. Так, для большинства фантастических фильмов ужасов кинокритик может интуитивно определить этот порог, не прибегая к статистическому расчёту перцентиля, а просто установив его на уровне 99,9%, чтобы всё, что выше, считалось крайне маловероятным и аномальным. Изображаемое ужасное в таком фантастическом кинофильме, тогда относится к интервалу выше 99,9%, что, помимо прочего, свидетельствует о приостановке прямой референции таких кинофильмов. И все же 99.9 это высокий порог. Быть может ужасное из сериала "From" и может попасть в такой ничтожный остаток, но скажем ужасное из сериала "Чужой" видимо не совсем, учитывая развитие генной инженерии и вероятности иной жизни в видимой Вселенной.

Но как быть с сингулярностями в астрофизике? Поскольку Z‑оценка, учитывающая многообразие галактик и нормальное колоколообразное распределение сингулярностей в центрах галактик, имеет уязвимости: в данных могут присутствовать экстремальные выбросы, искажающие средние значения. Таким образом, может существовать гипотеза о том, что чёрных дыр совсем нет, но это тёмная энергия и материя концентрируются в узловых точках центров распределения масс.

Но исходя из простого и непростого обстоятельства, что фигуры речи — это аномалии, можно оценивать тексты, меняя величину порога на основе перцентиля. Ввиду общей оценки текста значимость аномалий может меняться с положительной на отрицательную.

Тексты, которые не допускают метафор или допускают их в ограниченном количестве, могут оцениваться отрицательно, из‑за множественных отклонений от нормы. В то время как тексты, в которых метафоры составляют существо дела — например, стихотворные, — могут оцениваться тем более положительно, чем больше в них метафор.

Добавив классификацию фигур речи, прежде всего, по качеству, мы получаем возможность количественно их сравнивать. Это позволяет оценивать тексты более точно, приближая оценку к их стилистическому характеру, учитывая нюансы выразительности и внутренней формы плана выражения.

Сложность в том, что научный текст, открывающий новую область исследования, может содержать множество метафор, ранее не встречавшихся. И такой текст легко отнести к риторическим, если не к поэтическим. Это действительно так. При этом может быть неверно считать, что такой текст перестаёт быть научным из‑за этого.

Красота зачастую кажущихся бесполезными математических построений и доказательств свидетельствует, скорее, об искусстве математики. И в этом суть трудности создания программы подобной оценки наивно формальными средствами.

Проблема возникших когда‑то новых риторик в том, что даже если вы выявили 150 фигур речи, они могут смешиваться всё дальше и дальше, умножая факториал до числа, слабо подходящего для усмотрения и запоминания таких смесей. И да, это может быть не просто похоже на фрактал — это и есть фрактал кортежей смысла.

То есть, как только вы получаете относительно устойчивый результат, сама эта устойчивость становится основой для дальнейшего смешения. Подобно тому, как в самом начале метафора начала обозначать что‑то или смешиваться с другими фигурами речи.

Таким образом, пусть и контролируемый, но фактически неограниченный рост фигур речи сопоставим с бесконечным потоком смыслов, порождаемых условностью языка, который хотели покорить, сведя его к конечному количеству — пусть уже и не столь малому, как три, или не столь большому, как семь.

Тексты одного и того же масштаба афористичности могут быть существенно различными по содержанию и по внутренней форме плана содержания.

Коль скоро исходное деление науки и искусства — как областей, тем не менее различающихся по отношению к модальностям, — остаётся актуальным: наука ближе к необходимости, а искусство — к случаю. Тем не менее общая картина явно содержит намёки на диалектику дисциплин.

Теория вероятностей — это изучение с необходимостью законов необходимости и случайности, прежде всего количественных. В то время как с риторической, а тем более с поэтической точки зрения довольно легко выразить случайность любой науки и её предмета. И то, и другое может обладать содержательной истиной, с которой могут согласиться и наука, и поэзия.

Поэзия легко примет народную мудрость, выраженную в пословицах и поговорках, которые в концентрированной форме отражают закономерности, описываемые теорией вероятностей. Наука, с точки зрения эпистемологии, аналогичным образом может согласиться с истинами поэзии и риторики относительно случайности и необходимости, в том числе и самой науки.

История науки и искусства не только Европы, но и других регионов Евразии даёт красноречивые примеры того, что поэтические сочинения долгое время могли не иметь авторов, тогда как научные труды строго приписывались учёным. В настоящее время имена учёных служат скорее эпонимами теорем и открытий, теорий и языков, нежели знаками индивидуации, тех или иных, научных достижений.

Поскольку такие достижения, в силу природы научного познания и соответствующей культуры, зачастую не имеют чётко определённого автора, это тем не менее постоянно варьируется в рамках концепции интеллектуальной собственности. И покойный А. Эйнштейн может приносить доход таким же образом, как и покойный М. Джексон или Э. Пресли.

Иначе говоря, и поэзия, и наука могут быть близки здравому и общему смыслу, который иногда легко расходится сам с собой — и в науке, и в поэзии, — и благодаря им, в известном смысле, переходит к следующему.

Иначе говоря, коль скоро диалектика может быть более сложной, приостановка смысла в отношении значимости случая и необходимости, ближайшим образом формально (пусть и чувствительно к качеству науки и искусства), — это всегда колебание между ними.

Оценка степени приближения этого колебания к безусловности относительно науки и искусства может стать задачей. Сложность в том, что даже если задача будет решена, результат скорее станет дискриминировать тексты с точки зрения теории истины (корреспонденции), чем выявлять наиболее близкие к прямой содержательной референции, которые являются истинными. И в целом система окажется классификацией «правильных» и «неправильных» сообщений для той или иной области и горизонтов дискурсов.

Сложность общего характера состоит в том, что существует некое плато высказываний, которые не считаются афористическими, хотя явно являются таковыми.

Например, фраза «стол зелёный» не считается метафорой, пусть бы и была такой. Коль скоро фраза «этот стол зелёный», таким же образом, будучи фигурой речи, может расширить высказывание до более полной формы. Но «стол» — это понятие, пусть и эмпирическое, и оно не может быть «зелёным». Фраза «Этот стол покрашен в зелёную краску», - является словно наиболее точным и завершённым высказыванием в возможном ряду развёртывания высказываний приближающихся к не метафорическим.

И всё же указательное местоимение «этот» объединяется с эмпирическим понятием «стол» — общее имя с индивидуальным указателем. В любом случае - это фигура речи. Но никто не считает это метафорой, тем более заметной фигурой речи.

Тот факт, что сюрреализм начала XX века в поэзии обратил на это внимание параллельно разработкам символической логики — согласно которым любая речь в этом смысле является поэзией и условностью, — ничего не изменил. Протокольных предложений, таких, как они задумывались, не существует. И тем не менее они могут быть и есть. Иначе говоря, синтаксис и грамматика, столь же условны, сколь и звучания и написания слов, и соответствующие правила и грамматические и синтаксические структуры совсем не помеха сплошной условности языка, тому, что слова, это не вещи. На слово «стул» нельзя сесть как и нельзя сесть за слово стол. И при этом именно по тому же основанию, в известном смысле, и ввиду суперпозиции языковой условности можно сделать и то, и другое. Сидеть за словами, словно за столами и сидеть на словах, словно на стульях. Просто и не просто потому, что писательством можно зарабатывать на жизнь, вида «У нас появились донаты».

Таким образом, очевидно, что можно выделить как минимум три слоя языка:

неметафорический;

метафорический устаревший или устаревающий;

метафорический только что появившийся.

Ознакомьтесь со статьями на платформе Дзен. Сравните стилистику публицистических материалов на актуальные темы со стилистикой кулинарных рецептов. Затем сопоставьте кулинарные рецепты с окололитературными текстами — например, с философскими рассуждениями или специализированными публикациями на тему «ИИ и пользователь» (в сравнении с материалами на «Хабре»). И разница станет очевидной.

Устаревающая риторика, которая опирается на проверенные тропы политического дискурса, сосуществует с протокольными предложениями кулинарных рецептов (которые тоже могут содержать риторические элементы), и попытками блеснуть новыми метафорами в поэзии и философии. И, конечно, существуют специализированные языки профессионалов и экспертов. Которые располагаются между казённым языком инспекций — своего рода понятийной булимией бюрократии и системы — и подлинной эвристикой дерзания.

Могут ли здесь существовать какие‑либо границы, которые можно определить, оценивая качество стилистики через правила алгебры логики? Поскольку усреднение до уровней синхронии и диахронии может оказаться явно наивным.

Прежние метафоры и афоризмы вновь оживают, новые увядают, словно несостоявшиеся неологизмы. Таким образом, синхрония и диахрония оказываются равнозначными по объёму и сосуществуют одновременно для каждой сингулярности события.

Иными словами, даже если их можно различить, они оказываются за пределами содержательной значимости. И, таким образом, формализм, следуя известному правилу, сводит крайности воедино и оказывается не чем иным, как способом забывания в игре форм — то есть эскапизмом.

Подобно тому, как фраза «тык в себе дык, и дык в себе тык» может обрести некоторое содержание, но всё равно остаётся каламбуром, призванным дать легкомысленный ответ ради продолжения легкомысленных занятий.

Следовательно, действительный смысл филологического структурализма, с учётом известных идеологических ограничений, которым подвергается любая речь или письмо автора, пришлось деконструировать. Ведь конструкция вновь не просто рисковала — она оказывалась структурой. Заговорить структуру оказалось едва ли не единственным способом остановить её дальнейшее конструирование.

Иначе говоря, если бы вычисление и/или назначение перцентиля было бы единственно необходимым методом ввиду теории сплошной условности языка, иносказательности, метафоричности, парадоксальности, ввиду поиска порога отличия нормальных ошибок от анормально высоких, то значение перцентиля никогда не поднималось бы выше 1. Просто и не просто потому, что языковое поведение в речи или на письме всякий раз расценивалось бы как идеальное. Тогда, чтобы соотнести это с допустимыми нормами вычисления перцентиля такие значения могли бы быть актуальными. Коль скоро, иначе только в случае сравнения, в котором, ведь, все познаётся, скажем, косинусного сходства минимальные значения перцентиля могли бы быть осмысленными. Если метафора - это метафора всего, и таким образом всякой метафоры, то все что ниже 3, более того 1, могло бы быть аномальной ошибкой, видимо протокольного предложения. И да, это ничто иное, как подозрение к любой речи и письму, коль скоро то состоялось вместо молчания, кроме как у тех, кто исключительно призван к этому, говорить и писать. Что явно абсурдно в виду современной ситуации, едва ли ни всеобщего доступа к возможности индивидуально создать СМИ и что, кажется, обратна любому такому прежнему историческому ограничению. Но можно оглядеться среди запрещенных социальных сетей и санкций, статусов вида иноагентов, принятых по умолчанию ограничений внутренней цензуры, чтобы найти вполне явные аналогии.

Диалектическая логика, выделенная насколько это возможно в формализм — скажем, формальных онтологий сущностей, — может выглядеть по сути, словно произвол для формальной логики и формализма, логико-математического исчисления. Поскольку для последней A=A. Буква, знак, символ A в начале доказательства и в конце доказательства должно быть A, более того, на каждом шаге должна поддерживать связность с этим самым A, как говорили ранее по материи, несмотря на формализм дисциплины. Иными словами, A так или иначе должно присутствовать на каждом шаге доказательства. В известном смысле формальная логика всякий раз доказывает закон тождества или этот последний внутренне из внутри опосредован всяким доказательством.

Иначе. Бытие, качество, количество, мера; книга «Сущность» с разделами, а далее — книга «Понятие» с разделами. Это явно не то же самое, что непрерывное воспроизведение A на каждом шаге. Появляется нечто иное — если не другое и новое, — и эта генерация непрерывна. И прежде всего там, где она действительно имеет место, — в материальном общественном производстве.

«Бытие есть ничто, ничто есть бытие — становление" — лишь пустая форма. Тогда как политическая экономия, считывающая диалектику материального общественного производства в горизонтах истории смен социально‑политических и экономических формаций, представляет собой действительную диалектику.

Иначе говоря, ввиду содержательности диалектики и определённой абсурдности вычленения формы диалектической логики — именно исходя из стремления диалектики к необходимости, а не к формальному произволу (возможности вывести что угодно из подходящих предпосылок) — формализм логико-математических исчислений может легко восприниматься как искусство, игра со случаем.

Смех и глумление над диалектикой — мол, всё, что требуется знать, это тезис, антитезис, синтез, словно машина формальной неотвратимости, — это как раз смех над превращением диалектики в пустой формализм.

Иначе говоря и в этом случае как раз практика, какова бы она ни была, пусть бы и в виде её высшей формы - теории является последним критерием, в том числе, и меры диалектичности. Сложность однако проявлялась в том, что в отличие от натурфилософии Гегеля, "Философии природы", и более того в отличие от всецело предварительных заметок Энгельса в рукописях по диалектике природы, и конечно "Капитала" Маркса и работ по истории настоящего, вида "18 Брюммера Луи Бонапарта", тома диалектик, стремившиеся быть подобными были скорее эпистемологией аналитического характера, редко прямо демонстрировавшие диалектику, хоть каких то противоположностей, ни то что предмета и метода. Пусть бы и последней могло бы быть посвящено, видимо, наибольшее количество места, и как раз, в виду не прекращавшейся полемики с позитивизмом. Но в известном смысле сделать это очевидным можно было бы лишь с помощью анализа афористичности текста для определённого масштаба и характера. Диалектика имплицитная научному исследованию, интегрированная с материализмом, и таким образом могла распознаваться лишь на глазок, интуитивно. Словно, в известной мере интуитивно можно было распознавать разницу таким образом между выработкой диалектики Кантом и Гегелем, не ввергаясь в разработку формализма диалектики. Таким же образом интуитивно, словно и в установлении очевидности различия между содержательным исследованием и игрой словами. Конечно, прежде всего революционная практика, дискурсом которой и оказывается всякий раз диалектическое исследование и в этом случае довольно быстро предоставила бы возможность внести определённость и, коль скоро, та никогда не прекращалась, в той или иной форме и мере, то и предоставляла такую. И все же, времена реформ и иногда критических могут быть длительными. В известном смысле социально-политическая система может не меняться сотнями лет и иметь такой же горизонт будущего.

Можно было, таким образом, ввиду медленно угасающей дисциплины, диалектически развёртывать содержательные необходимости той или иной области знания. Иначе — вычленять формализмы диалектики в логику. И совсем иначе — используя формализм математической логики и теории множеств, помимо прочего, развёртывать анализ теоретических областей знания. И всё это — частью за пределами популярного изложения, станет ли оно научным или философским.

Но можно было и придерживаться методологии, только что изложенной, не входя в особенности ни в один из названных возможных горизонтов философского или иного научного дискурса.

Поскольку механистический материализм, как и позитивизм, был повержен и повергался всякий раз после того, как вновь оживал. По одну сторону не уставали праздновать победу философии материализма которая до 19 века, в известном смысле, и не существовала, лишь подбираясь к «царице наук» в позитивистских тропах. По другую сторону констатировали, что место философии занимает кибернетика, после очередного воскрешения позитивизма. Скорее, могла существовать методология, странным образом напоминавшая историографию и подвиги доксографии, коллекционирования мнений, имена и темы, темы и имена. И лишь тогда, когда эти начинания выступили propriet person, пусть и по умолчанию, то подобные претензии на значимость перестали вызывать раздражение.

После Кожева во Франции никто более непосредственно не забавлялся диалектическим дискурсом на письме. И даже классиков философии материализма в истории чаще считали по умолчанию аналитиками и структуралистами, после соответствующих разбирательств, нежели диалектиками. Спекулятивная же составляющая была отдана либо идеологии, либо прямо финансовой спекуляции, языковой генерации трейдеров и стратегов финансовых рынков.

Последние, как и определённая аналитика способов материального производства, и ныне остаются преимущественными способами существования диалектики. Это всякий раз становится очевидным в простых и непростых вопросах типа: покупать ли тот или иной актив, коль скоро он подешевел на торгах, или нет, коль скоро он теперь дешёвый? Или продавать ли его на вершинах достигнутых котировок, или нет, коль скоро актив столь ценен и именно поэтому стоит того, чтобы его сохранять?

Очевидно, тем не менее, что диалектика экономического рынка существует скорее в виде афоризмов и риторики производства и торговли, часто вдохновляется глубокими интуициями — подобно тому, как теория вероятностей может лучше пониматься через афоризмы про игру в рулетку или блэкджек.

Странным образом общая картина общественного производства не нуждается в прояснении, коль скоро разъясняется через множество повторений философов, просветителей и популяризаторов о том, что это такое, и главное — через опыт, который цикличен, несмотря на то, что при детальном рассмотрении и разработке частного производстве, скорее, выглядит как хаос.

Несмотря на видимую общую понятность изложенного — как и любое сокращение и ускоренное сведение к двойной противоположности — это изложение содержит по меньшей мере ту трудность, что либо будущего не существует, либо оно столь же абсолютно не определено, как и прежде. То есть, либо смена исторических формаций фатальна, словно экономические циклы, либо хаотична, случайна.

В этом смысле, действительной противоположностью исторического материализма является не анархизм, а философия истории и культуры Трубецкого или Шпенглера, мол, с радикальным тезисом о будущем, которое не предопределено, если это не закат. Что может быть всецело условен, ввиду современной Европы, что не собирается превращаться в руины павшей цивилизации, ни смотря на все успехи: США, Китая, России и Индии. Впрочем, стоит высказать какой то тезис о современной истории, как его опровержение может не заставить себя долго ждать и парадоксально, словно сама Европа станет, де, стремиться доказывать правоту Шпенглера, интенсифицируя противостояние. Что ни говори, но динамика, если ни диалектика инстинктов бессознательного кажется у всех одна и та же, ни смотря на с все старания АЭ доказать обратное. Негативная диалектика, это диалектика проигравшего, что явно даёт ему смысл и рационализирует любые возможные преступления в истории, коль скоро для тех сложились материальные условия возможности. Люди не любят умирать и тем более не любят умирать бессмысленно. И иначе, позитивность формализма, это всякий раз, как показывает и история - это стагнация системы с философией смерти, рецепция неоплатонизма. Позитивность формализма объединённая с негативной диалектикой может и приводит к самым критическим событиям, даже если сторона побеждающая. Маркузе и Оппенгеймер. Рационализация производства желания быть монархом Макиавелли, в начала конца монархий в Европе, пример, который до последнего времени будоражил воображение. Пока его не начали хоронить даже в Давосе.

Диалектика свободы и необходимости, как и возможности и действительности, может оставаться, таким образом, совершенно не рассмотренной и не понятой. И парадоксально: не видя леса за деревьями, можно и далее блуждать в трёх соснах.

Теперь же можно констатировать, что существует неограниченное число альтернатив мнимому неизбежному будущему, которому противоположен всеобщий конец. Далёкая конвергенция, когда этнически консервативные народы могут и не догадываться, в каком государстве они живут, и тем не менее живут в нём (поскольку иначе, скорее всего, были бы уничтожены), и близкая конвергенция с капиталом любого иного способа производства и государства с гражданским обществом — как минимум могут иметь место.

Оценка афористичности в этом смысле находится на границе между диалектикой и формализмом математических исчислений. Множество сложностей, масштабов, регионов, форм, степеней, диапазонов, интервалов, размерностей и т. д. в самых разных сочетаниях делает подобную оценку всякий раз сомнительной.

Просто и непросто потому, что общая картина — это всякий раз хаос, который не поддаётся однозначному учёту. Складывать пазлы — один из самых простых способов намекнуть на то, как можно преодолевать беспорядок в упорядочении. При этом всякий раз получается частная картинка, которая ни на йоту не преодолевает общей хаотичности — словно генерация одновременно и порядка, и беспорядка. Мы всякий раз исходим из хаоса и к нему возвращаемся, пусть даже в виде частично упорядоченной локальности. Будучи частью, такая локальность никогда не оказывается всей картиной.

И что же — нет никакого космоса? Отнюдь. Порядок всякий раз и есть космос, но всякий раз — частный, представленный этой собранной картинкой пазла. Пусть бы величиной с Солнечную систему или систему неподвижных звёзд видимых глазами без телескопов. Отсюда, помимо прочего, простой и непростой совет, если не требование: ограничить и чётко определить тему исследования, рассмотрения или разбирательства. Это необходимо, чтобы соразмерно реальным возможностям дистанцироваться от неограниченно неопределённой мощи хаоса.

Перас и апейрон. Удивительно может быть то простое и непростое обстоятельство, что апейрон в античной философии, которая на каждом шаге как раз демонстрировала предел интенсивности, — это не только дурная бесконечность (когда мы всё время бросаем копьё неограниченно, без конца, в пустое гладкое пространство впереди, продвигаясь вновь и вновь за броском, удваивая усилия), но и любой индивид.

Иными словами, абсолютная действительность индивида, которая констатировалась на вершине классической философии конца XVIII — начала XIX века, — это и есть апейрон. Любой фрактал может служить приближением к беспредельности такого рода. Это, очевидно, не способно определить окончательного значения, а лишь демонстрирует степень или скорость приближения к беспределу.

"СТЛА"

Караваев В.Г.

Взаимодействие с Gemini 3.1 pro preview

Вы:

Способы подсчета перцентиля для работы с естественным языком с помощью автоэнкодера?

===============================================================================================

В описанном вами сценарии (поиск аномалий с помощью автоэнкодера) перцентиль используется как статистическая граница, отделяющая «нормальные» ошибки от «аномально высоки

статистическая граница, отделяющая «нормальные» ошибки от «аномально высоких».

Определение перцентиля в этом случае делится на два этапа: логический (как выбрать уровень перцентиля, например, 95 или 99) и технический (как вычислить само число порога).

Вот как это происходит шаг за шагом:

Шаг 1. Сбор массива ошибок (MSE)

После того как автоэнкодер обучился на нормальных данных, вы пропускаете через него обучающую (или валидационную) выборку еще раз.

Для каждого отдельного образца вычисляется ошибка реконструкции (MSE).

Если в выборке 10 000 образцов, вы получите массив из 10 000 чисел (значений MSE).

Шаг 2. Логика: выбор уровня перцентиля (P)

Какой именно перцентиль взять — зависит от ваших данных и задачи. Есть три основных подхода:

На основе известной доли аномалий (Contamination rate):

Если вы знаете или предполагаете, что в ваших реальных данных аномалии составляют около 2%, то вы устанавливаете порог на 98-м перцентиле (100% - 2%). Это значит, что 2% данных с самыми высокими ошибками реконструкции будут считаться аномалиями.

На основе допустимого уровня ложных срабатываний (False Positive Rate):

Если данные считаются абсолютно «чистыми» (только нормальные образцы), но вы готовы пожертвовать 5% данных как ложными тревогами ради высокой чувствительности к аномалиям, вы выбираете 95-й перцентиль.( 3 или 7 перцентиль?)

Эмпирический подбор (по метрикам):

Если у вас есть размеченная тестовая выборка (где точно известно, где норма, а где аномалия), вы можете перебирать разные перцентили (90, 95, 99, 99.9) и смотреть, при каком пороге достигается лучший баланс метрик (Precision, Recall, F1-Score).

Шаг 3. Технический расчет порога

Допустим, вы решили использовать 95-й перцентиль. Как это считается?

Обычно применяется метод линейной интерполяции (тот самый, что зашит в большинство библиотек для машинного обучения, вроде NumPy).

Программа берет массив из ваших 10 000 значений MSE и сортирует их по возрастанию: от самой маленькой ошибки до самой большой.

Программа находит значение, ниже которого лежат 95% всех ошибок (9500 образцов), а выше — оставшиеся 5% (500 образцов).

Это конкретное значение MSE (например, 0.042) и становится порогом (Threshold).

Шаг 4. Применение порога к новым данным

Теперь модель готова к работе в реальном времени. Поступает новый (неизвестный) образец:

Автоэнкодер пытается его восстановить.

Считается MSE между оригиналом и восстановленной версией.

Идет проверка:

Если

MSE≤Threshold

(ошибка меньше 0.042) — это Норма (модель легко восстановила данные, она видела такое раньше).

Если

MSE>Threshold

(ошибка больше 0.042) — это Аномалия (модель плохо справилась с восстановлением, значит, данные нетипичные).

==========================================================================

Вы:

Можно ли назначать перцентиль в 3% или 7%. Это может иметь смысл?

=========================================================================

==========================================================================

Технически назначить порог на 3-м или 7-м перцентиле можно, но в контексте

ошибки автоэнкодера (MSE) это почти всегда терминологическая путаница.

Давайте разберем, когда это ошибка в словах, когда это сломает модель, а в каких

редких случаях это действительно имеет смысл.

1. Скорее всего, вы имеете в виду «топ 3%» (Терминологическая путаница)

Очень часто, когда говорят «взять перцентиль 3%», на самом деле имеют в виду

долю аномалий (Contamination rate) в 3%. Если вы хотите, чтобы модель

считала аномальными 3% данных с самыми высокими ошибками, вам нужно

использовать 97-й перцентиль (100% - 3%).

- 97-й перцентиль означает: 97% нормальных данных имеют ошибку ниже этого

порога, а 3% — выше. Именно эти верхние 3% мы и объявляем аномалиями.

- То же самое с 7%: если вы хотите отсеять 7% «подозрительных» данных, вам

нужен 93-й перцентиль.

2. Что будет, если буквально назначить порог на 3-м перцентиле MSE?

Если вы программно вычислите 3-й перцентиль для массива ошибок MSE, вы найдете

очень маленькое число (ошибку, меньше которой выдают только 3% самых «идеально

восстанавливаемых» образцов).

Если ваше правило звучит как «всё, что больше порога — это аномалия», и вы

ставите порог на 3-м перцентиле, то 97% абсолютно нормальных данных будут

признаны аномалиями. Ваша модель будет сигнализировать об ошибке почти на

каждом шаге. Это лишено смысла.

3. Когда 3% или 7% ДЕЙСТВИТЕЛЬНО имеют смысл?

Есть три специфические ситуации, когда использование низких перцентилей (3%, 7%)

абсолютно логично.

Ситуация А: Вы используете метрику сходства, а не ошибку

Автоэнкодеры не обязаны использовать MSE. Иногда используют метрики сходства,

например Cosine Similarity (косинусное сходство) или SSIM (для картинок).

- При MSE: чем число больше, тем хуже.

- При SSIM: чем число меньше, тем хуже (менее похоже на оригинал). В этом

случае аномалии находятся «внизу» графика. И здесь вы абсолютно

обоснованно ставите порог на 3-м перцентиле сходства. Правило будет

звучать так: «Если сходство ниже 3-го перцентиля — это аномалия».

Ситуация Б: Поиск аномалий типа «Слишком хорошо, чтобы быть правдой»

Иногда аномалия — это не сложный или странный объект, а, наоборот, подозрительно

простой или зависший. Примеры:

- Сломался датчик температуры и постоянно шлет одно и то же базовое значение

(например, 0.0). Автоэнкодер восстановит его с нулевой ошибкой.

- Камера видеонаблюдения зависла и передает один и тот же черный кадр.

В таких случаях ошибка реконструкции (MSE) будет экстремально низкой, почти

нулевой. Чтобы отловить такие «зависшие» или скомпрометированные данные,

можно установить нижний порог, например, на 3-м перцентиле MSE. Правило:

«Если ошибка МЕНЬШЕ 3-го перцентиля — возможно, датчик завис».

Ситуация В: Двусторонняя фильтрация (Очистка данных)

Если вы не ищете аномалии в продакшене, а просто хотите очистить обучающую

выборку от любых выбросов перед финальным обучением, вы можете отрезать

данные с двух сторон:

- Убрать 3% с самой высокой ошибкой (> 97-го перцентиля) — это откровенный

мусор.

- Убрать 3% с самой низкой ошибкой (< 3-го перцентиля) — это возможные

дубликаты или пустые значения.

Резюме:

Если ваша логика: "я допускаю, что в моих данных 3-7% аномалий" — используйте

97-й или 93-й перцентиль (для MSE). Считать именно 3-й перцентиль для MSE имеет

смысл только тогда, когда вы ищете подозрительно «идеальные» реконструкции.

==============================================================================

Вы: Что такое "правило трех сигм"

==============================================================================

«Правило трех сигм» (или эмпирическое правило 68–95–99.7) — это фундаментальное

статистическое правило, которое описывает разброс данных.

Если говорить максимально просто: правило гласит, что для большинства

стандартных наборов данных практически все нормальные значения

(99,73%) укладываются в определенный предсказуемый диапазон. Все, что выходит за

его пределы — это аномалия (выброс).

Давайте разберем, как оно работает, и как связано с вашей задачей поиска

аномалий.

1. Как это работает (основные понятия)

Правило строится на двух показателях:

1. Среднее значение (\mu) — математический центр ваших данных.

2. Стандартное отклонение (\sigma, «сигма») — это мера разброса. Оно

показывает, насколько сильно данные обычно отклоняются от среднего

значения.

Если ваши данные имеют нормальное распределение (график выглядит как

симметричный колокол, где большинство значений кучкуется в центре),

правило работает так:

+- \pm 1 сигма от среднего: здесь лежат ~68,27% всех данных. Это самые обычные,

типичные значения.

+- \pm 2 сигмы от среднего: здесь лежат ~95,45% данных.

+- \pm 3 сигмы от среднего: здесь лежат ~99,73% всех данных.

Вывод: вероятность того, что значение случайно окажется за пределами 3 сигм,

составляет всего 0,27% (менее 3 раз на 1000 случаев).

2. Как правило 3-х сигм применяется для поиска аномалий?

Вместо того чтобы задавать перцентиль (например, 99%), вы можете использовать

правило 3-х сигм для определения порога (Threshold) в вашем автоэнкодере.

Алгоритм будет таким:

1. Вы собрали массив ошибок (MSE) автоэнкодера на нормальных данных.

2. Вычисляете среднее значение этих ошибок (например, 0.010).

3. Вычисляете стандартное отклонение (например, 0.005).

4. Считаете порог: Порог = Среднее + (3 * Сигма)

- Порог = 0.010 + (3 * 0.005) = 0.025.

5. Правило: любой новый образец с ошибкой MSE выше 0.025 признается аномалией.

Примечание: в случае с ошибками (MSE) нас интересует только верхняя граница

(всё, что больше среднего + 3 сигмы), потому что отрицательных ошибок не

бывает.

Что такое "правило трех сигм"?

3. Перцентиль vs Правило трех сигм: что лучше?

У правила трех сигм есть один огромный недостаток: оно хорошо работает только

для нормально распределенных данных (симметричный график-колокол).

- Если вы используете перцентиль, вам вообще не важно, как выглядят ваши

данные (скошены ли они, есть ли там толстые "хвосты" и т.д.).

Перцентиль — это грубая, но надежная сортировка: 95-й перцентиль

всегда строго отрежет ровно 5% самых больших значений.

- Ошибки MSE у автоэнкодера обычно НЕ имеют нормального распределения. Они

часто сильно смещены влево (большинство ошибок очень близки к нулю) и

имеют длинный хвост справа.

Если применить правило 3-х сигм к таким несимметричным данным, может получиться

так, что за пределами "трех сигм" окажется не 0,27% данных, а, скажем, 2% или

наоборот — вообще ни одного нормального образца.

Резюме

Правило 3-х сигм — это классический, красивый математический подход для поиска

выбросов: «Аномалия — это всё, что отклоняется от нормы больше, чем на три

стандартных шага». Но в современном машинном обучении (в частности, в

нейросетях вроде автоэнкодеров) чаще используют перцентили, так как они

гибче, понятнее для бизнеса и работают с данными любой формы».

=========================================

Образование

190,2 тыс интересуются