Найти тему
m40r / AreaDNA

Как и для чего учёные используют кластеризацию?

Вышла моя новая научно-популярная #статья !

Смотрите полный #текст на сайте https://biomolecula.ru/articles/klasternyi-analiz-i-dilemma-biologicheskogo-polzovatelia

<...>

Xотелось бы бегло описать, как разнообразная, строгая, математическая и при этом неожиданно субъективная группа методов — кластерный анализ — способна помочь в работе ученого в ХХI веке. Кластеризация поможет установить внутреннюю структуру данных, выделить нетривиальные новые «подводные течения» в них и отметить #аномалии — необычные, выпадающие из общего числе наблюдения [18].

  • В экологии кластерный анализ пригодится, если требуется выявить пространственную и временную структуру сообществ организмов.
  • В геномике — отыщет группировки близких последовательностей нуклеиновых кислот и семейства консервативных генов, выполняющих схожие функции у самых разных организмов.
  • Поможет кластерный анализ и при выделении групп людей с определенными генетическими вариациями.
Кластерный анализ стал важной частью жизни биологического сообщества. иллюстрация vk.com/NEYRYS
Кластерный анализ стал важной частью жизни биологического сообщества. иллюстрация vk.com/NEYRYS

В соседней с биологией медицине эти #методы пригодятся, чтобы выделить типы тканей на трехмерных снимках #ПЭТ (позитронно-эмиссионной томографии), выявить шаблоны устойчивости к антибиотикам и группировать эти самые антибиотики по типу антибактериальной активности. В онкологии кластеризация полезна, чтобы выделить, распознать и строго локализовать раковые клетки в контексте здоровой #ткани .

  • Очередь за науками о человеке (#психология, социология и др.) и гуманитариями. Они развили большое разнообразие приложений кластерного анализа — скажем, для описания черт отдельных людей в области психологии личности или социальных групп. Здесь кластеризация испытывает сильную конкуренцию со стороны своего предшественника — дискриминантного анализа.
  • #Науки о Земле (геология, #география, почвоведение и др.) применяют кластерный анализ к отдельным территориям, геологическим формациям, почвам — решая, в том числе, свою любимую задачу районирования.
  • Наконец, на точном и инженерном краю науки кластерный анализ служит для фрагментации изображений, распознавания образов, анализа различных сигналов вроде текста и аудиозаписей речи, сжатия данных в информатике, хранения и обработки данных и документов, анализа социальных сетей и многого другого [1].
Диаграмма Вороного для датасета carnivora. Заметно некоторое сходство с результатом кластеризации k-средних изображенный в тех же координатах (рис. 2 слева). Однако в отличие от разложившей наблюдения на кластеры плоской кластеризации, «воронизация» разделила на «осколки» саму координатную плоскость. Семейства обозначены цветами: заметно, что в большинстве случаев они воссоединились — родственные виды расположены рядом.
Диаграмма Вороного для датасета carnivora. Заметно некоторое сходство с результатом кластеризации k-средних изображенный в тех же координатах (рис. 2 слева). Однако в отличие от разложившей наблюдения на кластеры плоской кластеризации, «воронизация» разделила на «осколки» саму координатную плоскость. Семейства обозначены цветами: заметно, что в большинстве случаев они воссоединились — родственные виды расположены рядом.

Однако как быть со всеми проблемами, затруднениями и неопределенностями, неразлучными с кластерным анализом и вместе обозначенными как «дилемма пользователя»? Вряд ли их стоит считать основанием отказываться от этого наглядного и эффективного способа выявить структуру ваших многомерных и больших данных. Особенно биологу — которому к капризной и изменчивой логике не приходится привыкать. Более того, неопределенности и необходимость выбирать — #алгоритм кластеризации, способ отложить расстояние между объектами, число кластеров,.. — это простор применить ваши экспертные знания и профессиональное чутье. К тому же неопределенность протокола кластерного анализа не мешает ему оставаться точной вычислительной методикой. И, что очень важно, методикой воспроизводимой. Это означает, что, имея ваш скрипт или иной «сухой» экспериментальный протокол, коллеги и читатели смогут без труда воспроизвести, проверить и изменить его. И эти положительные стороны вместе можно обозначить как мотивирующий «кластерный оптимизм».

============//===========

Смотрите также статью об орфанных заболеваниях