Что такое анализ данных, наверное, лучше объяснить на примере. Представьте себе интернет-магазин. Это не просто сайт, на который заходят люди и выбирают себе товары, это очень сложный бизнес-процесс. Необходимо закупить товар у поставщика, доставить его на склад, где он хранится, после этого его описать и занести в базу данных. Далее это описание появляется на сайте, где пользователи просматривают товары, делятся мнениями о них, смотрят рекомендации и делают заказы. Служба доставки эти заказы привозит, иногда потенциальный покупатель может отказаться от заказа, и тогда сделка не совершится. Есть много тонкостей, связанных со способами оплаты, доставки и так далее.

1. Прогнозирование спроса

Нам необходимо, чтобы весь этот бизнес-процесс действовал эффективно. Когда интернет-магазин только начинает свою работу, предприниматель закупает товары в каком-то количестве и пытается их продать. Но пока магазин работает, накапливаются данные, сохраняются логи пользователей: кто с каким IP заходил на сайт, что делал, какие страницы и в какой последовательности смотрел, какие товары в итоге выбрал и так далее. Когда накапливается довольно много информации, получается, что задача поддержания интернет-магазина в режиме эффективного функционирования фактически является задачей анализа данных, которая разбивается на множество различных подзадач.

Например, существует задача прогнозирования спроса. Каждый товар необходимо закупать в определенном количестве. Если закупить больше, чем нужно, то, если товар скоропортящийся, он испортится, а если нет, будет занимать место на складе, за аренду которого тоже необходимо платить. Если же мы закупим слишком мало товара, то на сайте все время будет показано, что его нет в наличии, и пользователи уйдут за покупками к нашим конкурентам. То есть необходимо предугадывать количество товара, которое будет востребовано. И здесь возникает задача прогнозирования многомерного временного ряда.

2. Прогнозирование многомерного временного ряда

У каждого товара есть история продаж. Исходя из этой истории, необходимо предсказать, сколько этого товара будет куплено в дальнейшем. Подобные задачи хоть и похожи на стандартные, которым учат в университетских курсах (анализ данных стоит на стыке машинного обучения, математической статистики, эконометрики, теории оптимизации и так далее), но являются более прикладными, у них своя специфика. Например, та же задача прогнозирования специфична тем, что если товар каждый месяц продается в количестве 5 штук, то это вовсе не значит, что на следующий месяц необходимо закупать именно 5. Ведь если мы каждый месяц закупали 5 и все распродавали, то, возможно, если закупить 100 товаров, они точно так же все будут проданы. Может быть, покупатели заходили на сайт, видели, что все товары распроданы, и больше купить просто не могли. Кроме описания товара, существует еще много дополнительной информации: был ли товар в наличии, как функционировал сайт (не было ли сбоев), была ли закупка бракованных партий, от которых пользователи отказывались, и так далее. Также важной является задача построения правильных рекомендаций.

Рекомендуем по этой теме:
Журнал
Анализ социальных сетей в интернете

3. Задача построения правильных рекомендаций

Человек, который заходит и покупает товар, может быть заинтересован в том, чтобы купить некоторые дополнительные аксессуары. Например, приобрести к планшету защитную пленку, чехол, наушники или что-то еще. Он может об этом не думать, но ему можно подсказать и тем самым повысить свою эффективность. Однако рекомендации должны быть грамотные. Необходимо показывать товары, которые могут быть ему интересны. Например, мы можем предлагать товары по большинству — то, что с этим планшетом чаще всего покупают.

Это достаточно разумно. Во-первых, если большинство покупает именно этот чехол, значит, он действительно хороший и может понравиться нашему конкретному покупателю. Во-вторых, такая статистика позволяет учитывать множество интересных эффектов. Допустим, с красным телефоном многие предпочитают покупать красные чехлы. Если вначале наша примитивная система рекомендаций показывает просто все чехлы, которые подходят к телефону, но люди, как правило, выбирают красные, то потом автоматически по большинству в нашей системе рекомендаций будет предлагаться именно красный чехол. И человек, видя грамотные рекомендации, естественно, им доверяет и в дальнейшем будет обращаться к этой службе.

4. Анализ данных как дисциплина

«Анализ данных» — это ровно то, что стоит в названии — анализ данных. Мы имеем данные, и мы хотим извлечь из них полезные закономерности, которые можно использовать в дальнейшем, например, для повышения эффективности бизнес-процессов, проведения каких-то исследований, планирования и так далее. Само слово «анализ» в данном контексте нельзя путать с математическим или функциональным анализом. Все эти дисциплины прежде всего научные, в них есть теория, есть задачники. Анализ данных — это дисциплина, которая эволюционирует, это в каком-то смысле не научная дисциплина, а прикладная, то есть в ней появляются все новые и новые задачи (и актуального задачника просто нет).

В «анализе данных» есть слово «данные», и это понятие эволюционировало со временем. Когда появились компьютеры, под данными часто подразумевали последовательность из нулей и единиц, но потом поняли, что здесь очень важен контекст. Например, все файлы фактически бинарные, но один с расширением.txt, другой — с. exe, третий — с. html, и в зависимости от этого мы их интерпретируем по-разному и совершаем с ними разные действия. Более того, данные постоянно усложнялись. Если мы рассмотрим учебники по машинному обучению середины XX века, то там в основном все ориентировано на информацию, которая записана в вещественные таблички. Потом стали появляться задачи, например, с классификацией текста, которые тоже сводили к задаче с вещественной матрицей. Далее появились специфические тексты, html-документы, xml-файлы, json-файлы и так далее. Таким образом, каждый раз информация становилась все более и более сложной.

5. Социальные сети и будущее анализа данных

Появлялись некоторые объекты, которые еще недавно не были центральными в исследовании, а сейчас представляют крайне важный интерес, например социальные сети. Раньше динамические гигантские графы фактически не исследовались, а вместе с социальными сетями возник большой спектр задач, связанный с этим понятием. Например, выявление наиболее активных и влиятельных пользователей социальных сетей, нахождение сообществ (сильно связанных компонент графа) и прочее. Поэтому, какой анализ данных будет, допустим, лет через 5 или 10, сложно сказать. Мы ведь не знаем, какие будут данные. И мы не знаем, какие будут требования к решению задач, поскольку требования тоже постоянно меняются. Можно сказать, что у поставщиков задач появляются все большие и большие аппетиты.

6. Задачи таргетированной рекламы

Допустим, в задачах таргетированной рекламы (это когда какому-то пользователю приходит либо эсэмэс, либо имейл-рассылка, причем не просто так, а по его действиям на каких-то ресурсах) мы пытаемся понять, чем же человек интересуется и какие предложения могли бы быть ему полезны. Например, если это пользователь сайтов сети кинотеатров, мы можем ему предлагать рассылку о новых фильмах. И если раньше в подобных задачах, например при рекламе товаров, цель была именно угадать, какой же пользователь откликнется на конкретный товар, то теперь многие задачи ставятся следующим образом: нужно предложить рекламу тем пользователям, которые будут заинтересованы в этом товаре и после окончания акции. Скажем, не просто купят его по сниженной цене, а в дальнейшем будут покупать именно этот товар.

Рекомендуем по этой теме:
Видео
1778 1
Управление мобильными данными

Как мы видим, даже сами постановки меняются с появлением понимания того, насколько мощным средством в рекламе, бизнесе и экономике является анализ данных. Также стоит отметить, что анализ данных — это некая область жизнедеятельности, которая является и научной, потому что в нее входят научные дисциплины, и прикладной, так как, чтобы заниматься этим, нужно программировать (ведь речь идет об алгоритмах, которые анализируют информацию), и даже искусством, поскольку для изобретения новых алгоритмов анализа совершенно новых объектов нужна фантазия. То есть это достаточно широкая область деятельности, которая действительно является очень актуальной и интересной, особенно для молодых исследователей.