Rating@Mail.ru

Кластер-анализ

Сохранить в закладки
3345
1
Сохранить в закладки

Математик Борис Миркин о принципах анализа, целях классификации в науке и сферах применения кластеринга

На каких принципах основан метод кластер-анализа? В каких областях возможно его применение? Каковы цели классификаций в науках? Об этом рассказывает доктор технических наук Борис Миркин

Кластер вошел в широкое употребление в 60-е годы вместе с развитием компьютеров для того, чтобы описать группу точек, которые находятся рядом друг с другом. Когда у вас есть несколько сотен или тысяч объектов наблюдения, которые описаны какими-то признаками, вы с помощью математических методов представляете эти точки точками многомерного пространства или даже двумерной плоскости и видите, что какие-то точки сидят рядом, а какие-то далеко. Возникает целый ряд вопросов. Что значит рядом? Это значит, они очень похожи по всем показателям. А что это значит? А нет ли какого-то механизма за этим? Так возник кластер-анализ. Как и у всех методов анализа данных, у него огромное количество проблем. Это инженерный метод, а не научный. На одном уровне разрешения вы увидите одни кластеры, на другом — другие, а какой уровень разрешения взять, вы не знаете. И даже на одном уровне разрешения то, что покажется одному близким, другому может таковым не показаться. Поэтому рядом с задачей нахождения кластеров всегда есть задача их описания.

Западные фирмы уделяют маркетингу 10–15% от своих доходов, и, конечно, их очень интересует сегментация рынка. Условно говоря, кому что продавать и кому как продавать; какие доводы покажутся убедительными одной части населения, а какие другой. Это самый первый практический пример применения методов кластер-анализа. Но сейчас и банки очень активно этим пользуются, потому что им надо уметь отделять каким-то образом потребителей их продуктов, которые являются честными людьми, и тех, которые не очень честны и не всегда вовремя отдают полученные деньги. В целом у кластеринга, или кластер-анализа, имеется несколько основных направлений. В основном, на мой взгляд, эти направления связаны с тем, что кластер-анализ — это то же самое, что построение классификации. Но только кластеры строятся на наблюдаемых данных, а классификации строятся в уме.

Одна из целей метода — установление связи между разными аспектами явления. Например, очень важно, чтобы оператор, который вводит данные, не ошибался. Очень много данных до сих пор вводится вручную, а еще больше считывается вручную. И поэтому существуют психологические эксперименты, которые показывают процент ошибок такого типа: когда появляется семерка, какой процент людей будет воспринимать ее как единицу? Мы обнаружили такие кластеры: 1, 4 и 7 образуют кластер часто спутываемых, а двойка, например, отделена, ни с чем не спутывается; девятка с шестеркой очень часто путаются и так далее. При написании этих цифр существуют определенные закономерности, которые можно использовать для того, чтобы специальным образом тренировать операторов.

Над материалом работали

Читайте также

Внеси свой вклад в дело просвещения!
visa
master-card
illustration