Найти в Дзене
КНИТУ-КАИ

В стесненных условиях

Ученые КНИТУ-КАИ разработали метод построения компьютерных моделей при ограниченном наборе экспериментальных данных В современные компьютерные системы нужно загрузить огромные массивы информации, чтобы на выходе получить качественный продукт – прогноз, диагноз, маршрутную карту полета... Очевидно, чем шире выборка, тем точнее будут полученные результаты. А что делать, если данных мало и взять их больше негде? Будет ли это непреодолимым препятствием для создания компьютерной модели, которая должна стать ключом к решению задач? Так, в период 2021-2022 гг. в лаборатории Института проблем экологии и недропользования Академии наук Республики Татарстан проводились обследования 240 детей. Исследование было посвящено анализу содержания металла (цинка) в крови детей в возрасте от 1 до 14 лет, проживающих в Казани, с целью выявления взаимосвязей между уровнем металла в крови, физиологическими параметрами и качеством питьевой воды. Для каждого ребенка измерялись вес (кг), рост (см), уровень цинк

Ученые КНИТУ-КАИ разработали метод построения компьютерных моделей при ограниченном наборе экспериментальных данных

В современные компьютерные системы нужно загрузить огромные массивы информации, чтобы на выходе получить качественный продукт – прогноз, диагноз, маршрутную карту полета... Очевидно, чем шире выборка, тем точнее будут полученные результаты. А что делать, если данных мало и взять их больше негде? Будет ли это непреодолимым препятствием для создания компьютерной модели, которая должна стать ключом к решению задач?

Так, в период 2021-2022 гг. в лаборатории Института проблем экологии и недропользования Академии наук Республики Татарстан проводились обследования 240 детей. Исследование было посвящено анализу содержания металла (цинка) в крови детей в возрасте от 1 до 14 лет, проживающих в Казани, с целью выявления взаимосвязей между уровнем металла в крови, физиологическими параметрами и качеством питьевой воды. Для каждого ребенка измерялись вес (кг), рост (см), уровень цинка в крови (мг/мл) и уровень цинка в питьевой воде квартиры (мг/мл). Проживание детей связывалось с конкретным районом города, соответствующим точке водозабора, что использовалось для классификации данных. Выборка была ограничена детьми для исключения влияния производственных факторов, особенностей питания и вредных привычек. Все данные были обезличены, каждому ребенку присвоен идентификационный номер. Задачей исследования было классифицировать детей по району проживания и провести частичное восстановление информации о содержании цинка в крови с использованием разработанных методов, чтобы понять влияние питьевой воды и физиологических особенностей на уровень металла в организме.

Метод, разработанный учеными КНИТУ-КАИ, позволил построить модели процессов при наличии неполных и ограниченных данных, характеризующих объект.

«На практике есть класс задач с очень ограниченным набором экспериментальных данных, - поясняет профессор кафедры прикладной математики и информатики КНИТУ-КАИ Светлана Новикова. - Такие данные редки, их получение затруднено по физическим, материальным, юридическим, морально-этическим и другим причинам. Например, данные проб грунта на других планетах, персональные данные, особенно относящиеся к несовершеннолетним гражданам, данные медицинских обследований орфанных заболеваний...»

Кроме того, зачастую построение моделей процессов на ограниченном наборе данных сопряжено с дополнительными трудностями, уточняют авторы разработки. Речь идет о неизвестных или слабо изученных физических законах, которые описывают взаимосвязи в таких системах, о неполноте сведений о внешних факторах воздействия, о недостаточной точности и периодичности измерений.

Между тем в подобных случаях для построения моделей невозможно применить стандартные методы аналитического моделирования. Методы машинного обучения (ML, Machine Learning) слабо применимы из-за требовательности последних к репрезентативности данных в обучающей выборке. Однако на сегодняшний день существует ряд специальных методов ML, с тем или иным успехом применяемых для обучения моделей на малых объемах данных.

Ученые КНИТУ-КАИ обратились к идее адаптивного резонанса, предложенной исследователями Карпентер и Гроссбергом. В основе адаптивно-резонансной теории (АРТ) лежит внутренний детектор новизны, суть которого заключается в сравнении входного образа с содержимым памяти модели. Резонанс возникает в случае, если входной образ («входной вектор») в «достаточной» степени «похож» на сохраненные в памяти АРТ шаблоны. Если похожего шаблона не найдено, входной образ сам становится шаблоном.

Существуют разные модели АРТ. «Классические» строятся в виде нейронных сетей с двумя слоями нейронов – слоем сравнения, или входным слоем, и слоем распознавания, или слоем эталонов. Сеть решает задачу классификации. Количество нейронов в слое сравнения равно размерности классифицируемых векторов, а число нейронов в слое распознавания равно количеству классов, где каждый нейрон представляет класс.

Работу сети на основе АРТ можно разделить на три этапа: на первом этапе новый входной вектор сравнивается с нейронами слоя распознавания, из которых выбирается один, называемый нейроном-победителем, наиболее «похожий» на вектор на входе. На втором этапе происходит расчет степени «похожести» входного вектора и нейрона победителя. На третьем этапе полученное значение степени похожести сравнивается с предварительно заданным порогом. Если порог преодолен, то говорят, что «возник резонанс» входного вектора с нейроном-победителем, и вектор относится к классу этого нейрона. В противном случае резонанс не возникает, и входной вектор становится новым классом-эталоном, количество нейронов в слое распознавания увеличивается. Говорят, «сеть адаптируется».

Разработано несколько вариантов АРТ-сетей. Первым вариантом архитектуры, реализующей адаптивно-резонансную теорию, считается архитектура АРТ-1, созданная для классификации двоичных образов. Следующим шагом стала разработка архитектуры АРТ-2 для обработки непрерывных сигналов. Известны также нейро-нечеткая модификация Fuzzy-ART, модификация с учителем ARTMAP и другие.

Ученые КНИТУ-КАИ преобразовали классическую модель АРТ-2 в модифицированную модель АРТ-WD (weakly-defined). Ее преимущество в том, что исследователи решили проблему оценки уникальности слабоопределенных данных (малых выборок со слабо изученными взаимосвязями).

Как правило, расширение выборки считается желательным и полезным для повышения точности и адекватности модели. Однако в случае с редкими или практически уникальными данными добавление в набор новой информации должно быть тщательно взвешено, так как даже единичное измерение, значительно отличающееся от прочих, способно привести к разбалансировке модели. Поэтому при изучении малых выборок слабо-определенных данных при каждом возникновении нового набора следует сначала оценить степень его уникальности по отношению к уже существующим данным. Решение о том, следует ли включать в набор данные, значительно отличающиеся от всех прочих, может приниматься дополнительным экспертным оцениванием, либо при помощи дополнительной процедуры оценки релевантности набора.

В нашем случае модификация АРТ-WD адаптирована для оценки уникальности слабо-определенных данных за счет сохранения полной информации о каждом обработанном векторе в нисходящих связях нейронов, что позволяет работать с малыми классами и разнообразным объемом данных. В модели введен новый способ вычисления меры близости с использованием «взвешенного попарного среднего» для точной оценки соответствия векторов классам, а также добавлен логический нейрон для автоматического принятия решения о новизне (уникальности) входного вектора с учетом резонанса и пороговых значений, что сокращает вычислительные затраты и позволяет эффективно выявлять уникальные векторы в условиях малых и разреженных выборок.

Модификация АРТ-WD — это как умный детектив, который запоминает каждую деталь каждого подозреваемого (вектора), даже если их мало, и они разные, чтобы лучше понять, кому они принадлежат. Новый способ вычисления близости — как тщательное сравнение черт лиц, где важна каждая мелочь, а логический нейрон выступает как внутренний судья, который быстро решает, встречается ли перед ним абсолютно новое лицо или уже известное, экономя время и ресурсы. Благодаря такому подходу детектив эффективно распознает даже редких и необычных подозреваемых в самой разношерстной толпе.