Как на примере работы интернет-магазина разобрать примеры задач анализа данных? Как меняется эта область исследований? И какие задачи в анализе данных наиболее актуальны сегодня? Об этом рассказывает доктор физико-математических наук Александр Дьяконов.

Пока работает интернет-магазин, накапливаются данные. Мы сохраняем логи пользователей: кто и с каким IP заходил на наш сайт, что он делал, какие страницы и в какой последовательности смотрел, какие товары в итоге выбрал, мы сохраняем все складские движения и так далее. Когда у нас накопилось достаточно много информации, наша задача поддержания этого интернет-магазина в режиме эффективного функционирования фактически является задачей анализа данных, которая разбивается на много различных подзадач. Например, задача прогнозирования спроса, потому что каждый товар нам надо не просто покупать, а закупать в каком-то определенном количестве.

Рекомендуем по этой теме:
13858
Машинное обучение и нейросети
Что же такое «анализ данных»? У нас есть данные, и мы хотим извлечь из них полезные закономерности, которые можно использовать в дальнейшем, например, для повышения эффективности бизнес-процессов, для проведения исследований, планирования и так далее. У многих сразу возникает вопрос: если я смотрю на табличку с числами и пытаюсь найти закономерности, неужели я занимаюсь анализом данных? Честно говоря, да. Если кассир считает вам сдачу, то на вопрос «Занимается ли она математикой?» некоторые могут ответить, что нет, она думает не о гипотезе Римана. С другой стороны, она будет применять те знания, которые она получила в школьном курсе математики. Просто есть математика элементарная, и есть высшая; и в данном случае она занимается элементарной математикой. Так и анализ данных имеет различные градации. Иногда употребляют термин «интеллектуальный анализ данных», но, на мой взгляд, не стоит вводить такую усеченную терминологию, каждый раз из контекста понятно, о чем идет речь. В принципе, это вольный перевод термина data mining — «добыча данных».

Данные постоянно усложнялись. Если мы рассмотрим учебники по машинному обучению середины XX века, то там в основном все ориентировано на информацию, которая записана в вещественные таблички. Потом стали появляться задачи с классификацией текста, которые тоже сводили к задаче с вещественной матрицей. Потом появились специфические тексты, скажем html-документы, xml-файлы, jsn-файлы и так далее. Таким образом, каждый раз информация становилась все более и более сложнее. Более того, появились некоторые объекты, которые еще недавно не были центральными объектами в исследовании, а в 2014 году они представляют крайне важный интерес, например социальные сети. Раньше динамические гигантские графы фактически не исследовались, а появились социальные сети, и появился большой спектр задач, связанный с этим понятием.