Большие данные в IT

Как большие данные стали одной из самых интересных задач IT-индустрии

Станислав Протасов

кандидат физико-математических наук, МФТИ, программист компании Parallels

Большие данные — это совокупность технологий, которые призваны совершать три операции. Во-первых , обрабатывать большие по сравнению со «стандартными» сценариями объемы данных. Во-вторых , уметь работать с быстро поступающими данными в очень больших объемах. То есть данных не просто много, но их постоянно становится все больше и больше. В-третьих , они должны уметь работать со структурированными и плохо структурированными данными параллельно в разных аспектах. Большие данные предполагают, что на вход алгоритмы получают поток не всегда структурированной информации и что из него можно извлечь больше, чем какую-то одну идею.

Типичный пример больших данных — это информация, поступающая с различных физических экспериментальных установок, например Большого адронного коллайдера, который производит огромное количество данных, и делает это постоянно. Установка непрерывно выдает большие объемы данных, а ученые с их помощью ученые решают параллельно множество задач.

Появление больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно. В публичную сферу технологии Big Data вышли, когда речь стала идти о вполне конкретном числе — числе жителей планете. 7 миллиардов, которые собираются в социальных сетях и других проектах, которые агрегируют людей. YouTube, Facebook, ВКонтакте, где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно, — огромно. Поток данных в этом случае — это пользовательские действия. Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.

Кьянг Ку

специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»

Управление большими массивами данных

Как работает Data Mining?

Кьянг Ку

специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»

Наука о данных занимается извлечением знаний и значимой информации из крупных и сложных массивов данных. Извлечение информации выводит скрытые закономерности, спрятанные в данных, и позволяет лучше понимать данные. В этом значимость науки о данных. Она соединяет знания с реальностью. Она преобразует онлайновые знания в офлайновые. Она меняет нашу жизнь, стратегии бизнеса, подход к выбору и помогает другим наукам, технологии и социологическим исследованиям.

Твиттер — отличный пример массивной динамической диаграммы. У Твиттера ежемесячно более 284 миллионов активных пользователей. Они размещают более 500 миллионов твитов в день. Отношения и общение между пользователями создают массивные динамические диаграммы, которые сложно не только понять, но даже визуализировать.

Одно из решений этой проблемы — обобщить данные. Это позволяет понять, как информация распространяется в системе и какие пользователи самые интересные и важные в процессе общения. Если определить важных пользователей, можно, например, остановить вирус, если таковой распространяется по системе, можно рекламировать товары в системах Твиттера, можно разобраться, как люди воспринимают информацию в онлайновые часы и чем это непохоже на офлайновые часы. Одна из важнейших задач в этой области — понять миры онлайна и офлайна. Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.

Изображение: Eric Fischer — Moscow locations of Twitter tweets

Репутация в социальных сетях

Как вычислить степень нашего доверия к «друзьям»?

Анализ социальных сетей — одна из самых популярных тем для исследований в наши дни. Если взять охват аудитории всех сайтов с социальными сетями, то мы увидим, что они привлекли самое большое число пользователей за всю историю интернета. Это означает, что у нас в руках огромное количество информации об активности людей в социальных сетях, равно как и об их структуре. Поэтому мы, люди, занимающиеся исследованиями, ищем пути такого использования этого большого количества данных, который дал бы нам возможность разобраться в них.

Нам всем знакомы понятия «доверие» и «репутация». Доверие — это то, что необходимо для принятия того или иного решения. Без доверия вы не отдадите деньги банку. В социальных сетях пользователи делятся очень многим. Очевидно, что им не хотелось бы делиться личными вещами, такими как фото, с людьми, которым они не доверяют. Исследователи пытаются найти способ вычисления репутации друзей и прочих людей, с которыми мы связаны в социальных сетях, чтобы иметь возможность делиться личными данными и информацией лишь с теми, кому мы доверяем. Именно для этого ученые работают над вычислением репутации.

Безопасность в социальных сетях

В конце 90-х было ощущение, что интернет станет источником достоверной информации. Однако пользователи делятся всем чем угодно, начиная с несуществующих цитат, заканчивая ничем не подкрепленными новостями. Поэтому возникла идея создания инструмента для измерения доверия. Исследователи создают платформы, в которых идет автоматический анализ того, насколько пользователи доверяют друг другу. Они изучают все пути, по которым пользователи взаимодействуют друг с другом. Становится очевидно, что пользователи отдают предпочтение небольшому числу других пользователей, доверяют им, читают и комментируют чаще. Платформа умеет сама анализировать поток информации и на ее основе подсчитывать так называемый «индекс доверия». Он измеряется в процентах, от нуля до ста, и претерпевает постоянные изменения: может как вырасти, так и упасть. Благодаря ему возможно судить, насколько пользователи доверяют друг другу.

Читать далее Изображение © Eric Fischer

Сергей Зыков

о возникновении программной инженерии, сложности корпоративных систем и развитии технологий

Как разрабатывают информационные системы для корпораций?

Как возникла научная дисциплина «программная инженерия»?

Сергей Зыков

о возникновении программной инженерии, сложности корпоративных систем и развитии технологий

Корпорации принципиально отличаются компаний, и прежде всего размером. Второе — это распределенность, ведь, как правило, корпорация — это не один офис, а географически разные точки, которые чем-то между собой связаны. И третье — это диверсификация, то есть речь идет не об одном виде бизнеса. Возьмем Microsoft: они создают и продают программное обеспечение, но и есть специальная компания Microsoft Research, которая занимается исследованием перспективных направлений деятельности. Для корпораций необходимы средства информационной поддержки для ведения на разных уровнях: это и учет, и планирование, и управление, и прогнозы. Для этого и создают корпоративные системы.

В 1968 году была конференция НАТО, где возник такой вопрос: а можем ли мы строить крупное, надежное, поддерживающее большое количество распределенных взаимодействующих единиц программное обеспечение? И ответ был: не можем. Не можем в принципе, потому что жизненный цикл выглядит совершенно иначе. Основные проблемы корпоративных информационных систем сводятся к проблемам программной инженерии, а также к анализу данных, интеграции, консолидации и представлению отчетной информации.

Руководство по алгебре процессов содержит тексты трех авторов в области алгебры процессов и отражает широкую картину данной области со времен ее появления в конце 1970-х годов и до современности. Оно предназначено в качестве исчерпывающего источника для специалистов в компьютерных науках.

Handbook of Process Algebra
Авторы: J.A. Bergstra, A. Ponse, S.A. Smolka (Ed.)
Elsevier Science, 2001

Я провел бессонные ночи за этой книгой и не испытываю ни капли сожаления. The Pi-Calculus: A Theory of Mobile Processes — это исчерпывающее изложение алгебры мобильных процессов с самых ранних дней их развития.

The Pi-Calculus: A Theory of Mobile Processes
Авторы: Sangiorgi D., Walker D.
Cambridge University Press, 2003

Это первая книга по теории параллелизма, которую я прочитал, и, безусловно, ее стоит прочитать каждому. Мне повезло встретиться несколько раз с профессором Милнером. Он был хорошим человеком и ученым исключительного калибра. Данная книга проста и понятна — доказательство того, что автор прекрасно понимал область, о которой писал.

Communication and Concurrency
Авторы: Milner R.
Prentice Hall, 1989

Communicating Sequential Processes (параллельная модель взаимодействия последовательных процессов) — это математический подход к параллелизму и коммуникациям от лауреата премии Тьюринга Чарльза Энтони Ричарда Хоара. Эта книга должна быть в каждой библиотеке, посвященной Computer Science и программной инженерии.

Communicating Sequential Processes
Авторы: C.A.R. Hoare (Ed.)
Prentice-Hall, 1985

Широкий обзор темы алгебры процессов. Упор сделан на практическое применение. Это книга, которую инженеры-программисты захотят прочитать первой. Данная работа даст специалисту подробное введение в основы алгебры процессов — направление, которое активно развивается в течение последних десятилетий.

Introduction to Process Algebra
Авторы:Fokkink W.
Springer, 2000