Какие данные можно считать большими? Почему люди боятся оставлять свои данные в публичных хранилищах? Какие типичные проблемы возникают при работе с большими данными? Об этом рассказывает кандидат физико-математических наук Иван Луковников.

10–15 лет назад мы оперировали примерно с гигабайтом данных. Прошло относительно небольшое количество времени, не успело смениться поколение, и объем данных приближается уже к сотням гигабайтов. Если мы посмотрим на ситуацию немного с другой плоскости, на корпоративный сегмент, то датчики, установленные всего лишь на одном двигателе Боинг-737, за полчаса полета генерируют примерно 10 терабайт данных. То есть за простой перелет Москва — Новосибирск подобного рода конструкция принесет нам 160 терабайт данных.

Рекомендуем по этой теме:
11058
Квантовые технологии
Можно посмотреть на Олимпиаду, прошедшую в Сочи, и примерно представить объем данных, которые она нам оставила. Это данные о сотнях спортсменов, соревнований, тысячи часов видео, данные с камер безопасности, а это, скорее всего, уже десятки часов видео и прочие артефакты. С одной стороны, с большими данными связаны некоторые проблемы, а с другой — колоссальные возможности.

Существует целый класс потенциальных способов использования больших данных. Первая категория — это хранение архивов, второй класс — обработка больших объемов информации. Я практически уверен, что в течение ближайших нескольких лет индустрия будет расти достаточно стабильными темпами и появится как минимум несколько интернет-компаний, специализирующихся на работе с большими данными, однозначно появятся сценарии работы с такого рода данными, о которых, возможно, мы сейчас не думаем и относим их к категории футуризма.