Совместно с издательством «Манн, Иванов и Фербер» мы публикуем главу из книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» профессора управления и регулирования интернета в Оксфордском университете Виктора Майер-Шенбергера и редактора раздела данных журнала «Economist» Кеннета Кукьера. В книге анализируется такое новое для нашего общества понятие, как большие данные, их значение для изменения жизни людей и возможности защиты людей от возникающих опасностей.

Изменение способов производства информации и взаимодействия с ней поневоле меняет правила самоуправления. А эти изменения, хотим мы того или нет, преобразуют основные ценности, которые общество должно защищать. Вспомним предыдущий наплыв данных, который произошел благодаря печатному станку.

До того как Гутенберг изобрел наборный шрифт (примерно в 1450 году), распространять идеи было нелегко. Книги в основном находились в монастырских библиотеках, строго охраняемых монахами в соответствии с правилами, которые католическая церковь предусмотрительно установила для защиты своего господства. Вне церкви нескольким университетам удалось собрать десятки или, быть может, пару сотен книг. Библиотека Кембриджского университета была основана в XV веке с фондом в 122 тома. Серьезным препятствием на пути распространения информации являлась безграмотность.

Благодаря печатному станку Гутенберга стало возможным массовое производство книг и брошюр. Переведя Библию с латинского языка на немецкий и тем самым открыв ее для многих читателей, которые получили возможность узнать слово Божье без помощи священников, Мартин Лютер мог напечатать и распространить ее среди сотен тысяч людей. Поток информации превратился из ничтожного в огромный. В конечном счете общество установило новые правила для управления информационным взрывом, вызванным изобретением Гутенберга.

Были созданы законы (например, об авторском праве), призванные расширить возможности авторов и дать им правовой и экономический стимул творить. Когда светское государство объединило свою власть, интеллигенция той эпохи стала добиваться установления правил для защиты слова от правительственной цензуры. В итоге свобода слова превратилась в конституционную гарантию. Но, как всегда, права влекут за собой обязанности. По мере того как недобросовестные газеты вторгались в частную жизнь людей или порочили их репутацию, возникали новые правила, чтобы оградить частную жизнь людей и дать им возможность подать в суд за клевету.

Изменились не только правила. Изменился и уровень доступности информации, что отразилось и на наших ценностях. В эпоху до печатного станка все управление сводилось к тому, чтобы спрятать всю текстовую информацию. Благодаря изобретению Гутенберга мы смогли по достоинству оценить, что значит широкое распространение информации в обществе. Столетия спустя мы предпочитаем получать как можно больше (а не меньше) информации, защищаясь от ее избытка не цензурой, а в первую очередь с помощью правил, ограничивающих злоупотребление информацией.

По мере того как мир движется в сторону больших данных, общество подвергается подобному «тектоническому» сдвигу. Большие данные заставляют нас пересмотреть фундаментальные представления о том, как стимулировать их рост и умерять потенциальный вред, поскольку они во многом меняют наш образ жизни и мышления. Однако, в отличие от печатной революции, на раздумья нам отведены не столетия, а, возможно, всего каких-то пара лет.

Защита частной жизни потребует от лиц, имеющих дело с личными данными, большей ответственности за свою политику и действия. Нам предстоит пересмотреть свое представление о справедливости, чтобы гарантировать человеческое право на свободу действий (и, конечно, соблюдение ответственности за эти действия). Понадобятся новые учреждения и эксперты (так называемые «алгоритмисты»), чтобы интерпретировать сложные алгоритмы, на основе которых формируются выводы из больших данных, и защищать интересы тех, кто может от этих выводов пострадать, например получить отказ в приеме на работу или хирургическом вмешательстве или не получить кредит из-за того, что о них «говорят» большие данные. Дело не в адаптации существующих правил, а в создании новых.

От безопасности к отчетности

На протяжении десятилетий важнейший принцип конфиденциальности во всем мире заключался в том, чтобы предоставить людям возможность самим решать, кто и как имеет право обрабатывать их личную информацию. В век интернета это достойное правило превращается в шаблонную систему «уведомления и согласия». В эпоху больших данных, когда больше пользы приносит вторичное применение данных, далеко не всегда предсказуемое на момент их сбора, этот принцип уже не так актуален.

Намного разумнее было бы отменить практику индивидуального управления конфиденциальностью и заменить ее расширенной подотчетностью, которая предъявлялась бы к пользователям данных, повышая их ответственность за свои действия. Компании, работающие с данными, больше не смогли бы приводить в свое оправдание то, что человек разрешил их использовать. Напротив, им пришлось бы оценивать потенциальные опасности, с которыми могут столкнуться люди при вторичном применении их данных. И только убедившись, что уровень угрозы низкий (то есть возможный ущерб ограничен или гарантированно может быть снижен), компании могли бы воплощать в жизнь свои планы. А в случае неправильной оценки угроз или небрежной реализации планов компании можно было бы привлечь к ответственности за нанесенный ущерб. В свою очередь, правила должны предусматривать вторичное использование данных в большинстве случаев без явного согласия.

Приведем наглядный пример. Представьте себе, что профессор Косимицу, токийский эксперт по «задней части», продал противоугонное устройство для автомобиля, которое использует сидячую позу водителя в качестве уникального идентификатора. Предположим, что позже он повторно проанализировал полученную информацию, чтобы спрогнозировать уровень внимательности водителя (сонный, подвыпивший, раздраженный и т. п.) и отправить уведомления другим водителям, находящимся поблизости, во избежание аварий. При нынешних правилах конфиденциальности Косимицу потребовалось бы пройти еще один этап «уведомления и согласия», поскольку он ранее не получал разрешения на подобное применение информации. А с системой подотчетности пользователей данных ему достаточно было бы оценить опасности предполагаемого использования и, если они минимальны, продолжить задуманное, тем самым повышая безопасность дорожного движения.

Логично было бы переложить бремя ответственности с общества на тех, кто обрабатывает данные. Тому есть целый ряд причин. Лица, которые обрабатывают данные, гораздо лучше других знают, что с ними будут делать. Их оценка (или оценка нанятых ими экспертов) позволяет избежать проблем с выявлением конфиденциальных бизнес-стратегий. Возможно, самое главное — то, что эти лица получают большую часть преимуществ вторичного использования данных. Так что вполне справедливо привлекать их к ответственности за свои действия.

Безусловно, правительство тоже играет важную роль. Если пользователи данных произведут неточную оценку или будут действовать вразрез с предполагаемой оценкой, регулирующие органы привлекут их к ответственности

путем распоряжений, штрафов и, возможно, даже уголовного преследования. Подотчетность пользователей данных должна иметь рычаги влияния. Регулирующие органы могут ей содействовать, например, определив основные категории допустимых видов применения или таких, для которых достаточно ограниченных мер по обеспечению безопасности. Это позволит стимулировать поиск новых приемов повторного использования данных. Для более рискованных инициатив регулирующие органы составят основные правила, по которым пользователи данных должны оценивать опасности, влияние на отдельных лиц и пути сведения к минимуму возможного ущерба. Цель в том, чтобы получить объективное и точное представление об угрозах конфиденциальности и понять, какие меры нужно предпринять.

Далее, с пользователей данных будет снята юридическая обязанность удалять личную информацию сразу после ее основного целевого использования, как того требует большинство нынешних законов о конфиденциальности. Это важное изменение, поскольку, как мы видели, только выявив скрытую ценность данных, современные коммодоры Мори могут максимально эффективно работать с данными для собственной (и общественной) выгоды. Взамен пользователи данных получат право на более длительное, хоть и не вечное хранение информации. Обществу необходимо уравновесить преимущества повторного использования данных и риски, вызванные их слишком широким разглашением.

Для того чтобы достичь такого равновесия, регулирующие органы, например, назначат срок удаления различных видов личных данных. Сроки повторного использования могут зависеть от неизбежного риска, связанного с данными, а также от ценностей, присущих различным обществам. Одни страны будут более осторожными, чем другие, так же как некоторые виды рассматриваемых данных могут быть более конфиденциальными, чем другие: база данных домашних адресов слепых людей в конкретном городе понадобится специалистам по городскому планированию, специализированным розничным магазинам и самим людям, а домашние адреса лиц, больных ВИЧ/СПИДом, относятся к разряду данных, о которых не всем хотелось бы распространяться.

В рамках такого подхода конфиденциальность личных данных защищается ограничением времени, на протяжении которого они могут храниться и обрабатываться. Кроме того, этот подход устраняет угрозу «постоянной памяти» — риск того, что никто не сможет скрыться от своего прошлого, поскольку цифровые записи всегда можно извлечь. В противном случае наши личные данные повисли бы над нами как дамоклов меч, угрожая рано или поздно пронзить нас личными подробностями или напоминанием о неудачных поступках. Сроки также служили бы для держателей данных стимулом реализовать свой ресурс, пока есть такая возможность. На наш взгляд, это позволило бы достичь лучшего равновесия для эпохи больших данных: компании получили бы право дольше использовать личные данные, взяв на себя ответственность за это, а также обязательство удалить с устройства личные данные спустя определенный период.

В дополнение к этому переходу в управлении — от конфиденциальности по согласию к конфиденциальности через подотчетность — нам нужно найти и ввести в действие новые технические способы обеспечения защиты личных данных. Один из инновационных подходов содержит понятие «дифференциальной конфиденциальности», которая подразумевает намеренное размытие данных, чтобы запрос большого набора данных выдавал не точные результаты, а лишь приблизительные. Такой подход делает процесс связывания определенных точек данных с конкретными людьми трудным и дорогостоящим.

Может показаться, что подобное перемешивание информации способно уничтожить ценные открытия. Но это совсем не обязательно или по крайней мере может служить удачным компромиссом. Эксперты в области политики и технологий отмечают, что Facebook использует дифференциальную конфиденциальность, когда сообщает информацию о своих пользователях потенциальным рекламодателям: полученные значения являются приблизительными и поэтому не могут помочь установить личности отдельных людей. Поиск ряда женщин азиатского происхождения, проживающих в Атланте и интересующихся аштанга-йогой, выдаст результат, например, «около 400», а не постоянное количество. Таким образом, информацию невозможно будет статистически свести к конкретному человеку.

Переход в управлении конфиденциальностью от согласия отдельных лиц к подотчетности пользователей данных является одним из основных и наиболее существенных изменений. Подобный переход необходим и в прогнозировании на основе больших данных, чтобы сохранить свободу человека и его ответственность.

Люди и прогнозирование

Суды привлекают людей к ответственности за совершенные действия. Когда судья оглашает свое беспристрастное решение после справедливого судебного разбирательства, это считается торжеством справедливости. В эпоху больших данных нам придется пересмотреть понятие справедливости, чтобы сохранить понятие «человеческого фактора» — свободы воли, согласно которой люди сами выбирают, как им действовать. Это простое понятие подразумевает, что люди могут и должны нести ответственность за свое поведение, а не склонности.

До появления больших данных эта фундаментальная свобода была очевидной, причем настолько, что вряд ли нуждалась в формулировке. В конце концов, на ней основан принцип работы нашей правовой системы: мы привлекаем людей к ответственности за свои действия, оценивая то, что именно они натворили. С помощью больших данных мы можем спрогнозировать действия человека, и порой достаточно хорошо. Это создает искушение судить о людях не по тому, что они сделали, а по тому, что они сделают, судя по нашим прогнозам.

В эпоху больших данных нам придется расширить свое представление о справедливости и включить меры по обеспечению безопасности человеческого фактора, аналогичные тем, которые существуют для защиты процессуальной справедливости. Без этого само понятие справедливости может быть подорвано.

Учитывая человеческий фактор как обязательное условие, мы гарантируем, что органы государственной власти будут судить о нашем поведении исходя из наших реальных действий, а не анализа больших данных. Таким образом, мы должны нести ответственность перед ними только за совершенные действия, а не статистически прогнозируемые в будущем. А судя о предыдущих действиях, органы государственной власти не должны полагаться исключительно на анализ больших данных. Рассмотрим случай, когда две компании подозреваются в ценовом сговоре. К анализу больших данных вполне приемлемо прибегнуть для выявления возможного сговора, поэтому регулирующие органы могут провести расследование и завести

дело с использованием традиционных средств. Но эти компании нельзя признать виновными только потому, что, по прогнозам больших данных, они, вероятно, совершили преступление.

Аналогичный принцип должен применяться и вне органов государственной власти, когда компании принимают важные решения о нас: нанять или уволить, предложить ипотеку или отказать в кредитной карте. Если они руководствуются исключительно прогнозами больших данных, необходимо обеспечить определенные меры безопасности. Во-первых, открытость — предоставление данных и алгоритма, лежащих в основе прогноза, который касается конкретного человека. Во-вторых, сертификацию — прохождение сертификации, в ходе которой алгоритм должен быть признан экспертной третьей стороной как обоснованный и достоверный. В-третьих, недоказуемость — определение конкретных путей, с помощью которых человек может опровергнуть прогнозы относительно себя (аналогично традиции в науке раскрывать любые факторы, которые могут подорвать результаты исследования).

Самое главное, гарантия человеческого фактора защищает нас от угрозы «диктатуры данных», когда данным придается больше смысла и значения, чем они заслуживают.

Не менее важно то, что мы защищаем индивидуальную ответственность. Ведь всякий раз, когда общество принимает решение, затрагивающее других, возникает большой соблазн избавить их от ответственности. Общество переходит к управлению рисками, то есть к оценке возможностей и вероятностей потенциальных результатов. При всей видимой объективности данных очень заманчиво звучит идея оградить процесс принятия решений от эмоциональных и личностных факторов, поставив алгоритмы на смену субъективным оценкам судей и оценщиков и формулируя свои решения уже не на языке ответственности, а оперируя категориями более «объективных» рисков и их предотвращения.

Ввиду прогнозов больших данных возникает сильное искушение изолировать людей, которые, судя по прогнозам, склонны к совершению преступлений, и во имя снижения риска регулярно подвергать их тщательным проверкам, даже если они чувствуют (не без оснований), что наказаны без суда и следствия. Предположим, такой алгоритм «охраны правопорядка», основанный на прогнозах, определил, что конкретный подросток в высшей степени склонен к совершению тяжкого преступления в ближайшие пять лет. В итоге по решению властей социальный работник будет ежемесячно наведываться к подростку, чтобы контролировать его и попытаться ему помочь.

Если подросток и его родственники, друзья, учителя или работодатели воспринимают эти визиты как клеймо (что вполне вероятно), то это вмешательство можно оценить как наказание — по сути, штраф за действия, которые никто не совершал. Впрочем, немногим лучше ситуация, если визиты рассматриваются не как наказание, а как простая попытка уменьшить вероятность криминальных событий — так сказать, способ минимизации рисков (в данном случае сводится к минимуму риск совершения преступления, которое подрывает общественную безопасность). Чем чаще привлечение людей к ответственности за свои действия заменяется мероприятиями по снижению рисков, тем больше в обществе снижается ценность идеала индивидуальной ответственности. Государство, основанное на прогнозах, — в первую очередь государство-нянька. Отрицание ответственности человека за свои действия разрушает фундаментальную свободу людей выбирать свое поведение.

Если большинство решений на государственном уровне полагаются на прогнозы и желание снизить риски, наш личный выбор, а значит, и наша личная свобода действий больше не имеют значения. Где нет вины, там нет невиновности. Уступая такому подходу, мы не улучшаем, а скорее обедняем мир.

Основным стержнем управления большими данными является гарантия того, что мы продолжим судить других, принимая во внимание их индивидуальную ответственность, а не «объективно» обрабатывая числа, чтобы определить, являются ли те или иные лица преступниками. Только в таком случае мы будем относиться к ним по-человечески — как к людям, которые имеют свободу выбора своих действий и право быть судимыми за них. Это не что иное, как последствие наступления эпохи больших данных для нынешней презумпции невиновности.

Вскрытие «черного ящика»

Современные компьютерные системы принимают решения на основе явно запрограммированных правил, которым они должны следовать. Таким образом, если что-то пошло не так, а это неизбежно случается, мы можем вернуться и выяснить, почему компьютер принял то или иное решение. («Почему система автопилота подняла самолет на пять градусов выше, когда внешний датчик определил внезапное повышение влажности?») Сегодня компьютерный код можно открыть и проверить, а основания для

решений системы независимо от их сложности — сделать понятными хотя бы для тех, кто разбирается в коде.

При использовании анализа больших данных отследить это станет гораздо сложнее. Основа прогнозов алгоритма зачастую может быть непосильной для человеческого понимания.

Когда компьютеры были явно запрограммированы следовать набору инструкций, как это было с одной из первых программ компании IBM для перевода с русского на английский (1954 год), человеку было легко понять, почему одно слово заменялось другим. Когда компания Google объединяет миллиарды страниц переводов, чтобы судить о том, почему английское

слово light выводится на французском как lumière, а не léger (имеется в виду яркость, а не отсутствие тяжести), невозможно точно объяснить причину выбора: основа прогнозирования влечет за собой огромные объемы данных и обширные статистические вычисления.

Масштабы работы с большими данными выйдут далеко за рамки привычного для нас понимания. Так, корреляция, определенная компанией Google между несколькими условиями поиска и гриппом, стала результатом проверки 450 миллионов математических моделей. С другой стороны, Синтия Рудин первоначально разработала 106 прогностических факторов того, что канализационный люк может загореться, и сумела объяснить менеджерам компании Con Edison, почему ее программа выстроила места проверки именно в таком приоритетном порядке. «Объясняемость», как говорят в кругах исследования искусственного интеллекта, имеет большое значение для нас, смертных, которые, как правило, хотят знать не только факты, но и их причину. А что если бы вместо 106 прогностических факторов система автоматически создала 601, подавляющее большинство из которых имеют очень низкий вес, но вместе взятые повышают точность модели? Основа для любого прогноза была бы невообразимо сложной. Что тогда Синтия сказала бы руководителям, чтобы убедить их перераспределить свой скудный бюджет?

В таких случаях мы видим риск того, что прогнозы больших данных, а также алгоритмы и наборы данных, стоящие за ними, станут «черными ящиками», которые не дают ни малейшей прозрачности, подотчетности, прослеживаемости или уверенности. Для того чтобы предотвратить это, необходимы отслеживание и прозрачность больших данных, а также новые виды специальных знаний и учреждения, которые бы ими занимались. Эти новые игроки окажут поддержку в многочисленных областях, где общество должно внимательно изучить прогнозы и дать возможность пострадавшим требовать возмещения.

В обществе такое происходило и раньше, когда при резком увеличении сложности и специализации определенной области возникала острая необходимость в специалистах для управления новыми техническими средствами. Профессии, связанные с юриспруденцией, медициной, бухгалтерским учетом и инженерией, подверглись таким преобразованиям более ста лет назад. Не так давно появились консультанты по компьютерной безопасности и конфиденциальности. Они следят за тем, чтобы деятельность компании соответствовала передовой практике, определяемой такими органами, как Международная организация по стандартизации (созданная ввиду возникшей необходимости в разработке правил в этой области).

В эпоху больших данных потребуются люди, которые взяли бы на себя эту роль. Назовем их алгоритмистами. Они могли бы выступать как представители независимых органов, которые работают вне организаций, и как специалисты самих организаций, аналогично тому как компании нанимают и штатных бухгалтеров, и внешних аудиторов, которые проверяют их

работу.

Новая профессия — алгоритмист

Новые профессионалы должны быть специалистами в области компьютерных наук, математики и статистики. Выступали бы они в качестве инстанций, контролирующих анализ и прогнозы больших данных. Алгоритмисты давали бы клятву в беспристрастности и конфиденциальности, как это делают бухгалтеры и другие специалисты в наше время. Они могли бы оценивать выбор источников данных, аналитических средств и средств прогнозирования (в том числе алгоритмов и моделей), а также интерпретацию результатов. В случае возникновения спора алгоритмисты получали бы доступ к соответствующим алгоритмам, статистическим подходам и наборам данных, которые подготовили данное решение.

Если бы в Министерстве внутренней безопасности США в 2004 году был штатный алгоритмист, он смог бы заблаговременно выявить ошибку, закравшуюся в черный список преступников, в который попал сенатор от штата Массачусетс Тед Кеннеди. Вспомним недавние инциденты, где пригодились бы алгоритмисты. В Японии, Франции, Германии и Италии появились претензии от людей в том, что их позорила функция «автозаполнения» поисковой системы Google, которая выдает список наиболее распространенных условий запроса, связанных с их именем. Эта функция в значительной степени зависит от частоты предыдущих поисков: условия ранжируются в соответствии с их математической вероятностью. А кого бы не возмутило, если бы рядом с его именем отобразилось слово «зэк» или «проститутка», когда кто-то из потенциальных деловых партнеров

или пассий решил поискать о нем информацию в Сети?

Мы рассматриваем алгоритмистов как рыночный подход для решения аналогичных проблем, который может оставить позади более навязчивые формы регулирования. Алгоритмисты удовлетворили бы потребность в обработке нового наплыва финансовой информации — так в начале ХХ века появились бухгалтеры и аудиторы. Обычным людям было трудно разобраться в обрушившемся на них потоке цифр. Возникла необходимость в объединении специалистов в гибкие, саморегулируемые структуры для защиты интересов общества. В ответ рынок породил совершенно новый сектор конкурирующих компаний, которые предлагали услуги финансового надзора. Таким образом новому поколению профессионалов удалось укрепить уверенность общества в экономике как таковой. Большие данные могут и должны использовать преимущества аналогичного повышения уверенности. И с этой задачей успешно справились бы алгоритмисты.

Внешние алгоритмисты

Внешние алгоритмисты могли бы выступить в роли независимых аудиторов для проверки точности и достоверности прогнозов больших данных по запросу клиента или правительства в судебном порядке или по решению регулирующих органов. Алгоритмисты также могли бы проводить аудит пользователей больших данных, нуждающихся в экспертной поддержке,

и подтверждать обоснованность применения больших данных, допустим в технических средствах по борьбе с мошенничеством или системах обращения ценных бумаг. Наконец, они могли бы консультировать государственные органы, как лучше всего использовать большие данные в государственном секторе.

По примеру медицины, права и пр. эту новую сферу деятельности можно регулировать кодексом поведения. Беспристрастность, конфиденциальность, компетентность и профессионализм алгоритмистов обеспечивались бы жестким порядком ответственности. В случае нарушения этих стандартов алгоритмисты подвергались бы судебным искам. Их можно было бы привлекать к участию в судебных процессах в качестве свидетелей-экспертов или назначать в качестве «придворных мастеров» (по сути, экспертов в определенной предметной области для оказания помощи судье) при рассмотрении особо сложных вопросов, связанных с большими данными, в ходе судебного разбирательства.

Кроме того, люди, пострадавшие от прогноза больших данных (пациент, которому отказали в хирургическом вмешательстве, заключенный, которому отказали в досрочном освобождении, или заявитель, которому отказали в ипотеке), могли бы обратиться за помощью к алгоритмистам, равно как к адвокатам, чтобы разобраться в этом решении и опротестовать его.

Внутренние алгоритмисты

Внутренние алгоритмисты — штатные специалисты организаций, которые контролируют деятельность, связанную с большими данными. Их задача — отстаивать интересы не только компании, но и людей, пострадавших в результате анализа больших данных, проводимого данной компанией. Внутренние алгоритмисты отвечают за операции с большими данными и являются первыми контактными лицами для таких потерпевших, а также проверяют анализ больших данных на целостность и точность, прежде чем будет оглашен результат. Для выполнения этой задачи алгоритмистам нужен определенный уровень свободы и непредвзятости в рамках организации, в которой они работают.

Может показаться нелогичным, что человек, работающий в компании, должен оставаться беспристрастным по отношению к ней. Но такое встречается достаточно часто. Один из примеров — отделы по надзору в крупных финансовых учреждениях; далее — советы директоров во многих компаниях, которые несут ответственность перед акционерами, а не руководством. А многие медиакомпании, в том числе New York Times и Washington Post, нанимают омбудсменов, основной обязанностью которых является защита доверия общественности. Эти сотрудники работают с жалобами читателей и нередко публично подвергают суровой критике своего работодателя, если считают его виновным.

Еще более удачный аналог внутреннего алгоритмиста — специалист, который несет ответственность за злоупотребление личной информацией в корпоративной среде. В Германии компании, превышающие определенный размер (наличие в штате десяти и более человек, занятых обработкой личной информации), обязаны назначить представителя для защиты данных. Начиная с 1970-х годов штатные представители для защиты данных разработали профессиональную этику и корпоративный дух. Они регулярно встречаются для обмена передовым опытом и обучения, а также имеют собственные специализированные СМИ и проводят конференции. Кроме того, им удалось развить двойную лояльность: к своим работодателям и к своим обязанностям в качестве непредвзятого контролирующего органа. Существование немецких представителей защиты корпоративных данных можно расценивать как успех в выполнении функций омбудсмена по защите корпоративных данных и укреплении ценностей конфиденциальной информации во всех сферах деятельности компании. На наш взгляд, алгоритмисты могли бы выполнять аналогичную функцию.

Раскрытие информации

Основной инструмент, который государственные органы используют для надзора за деятельностью граждан и компаний, — запрос на предоставление информации. Иногда раскрытия информации самого по себе достаточно, чтобы стимулировать соблюдение требований или отстаивать цели регулирования. Такой принцип лежит в основе законов, согласно которым компании, имеющие утечку больших данных, обязаны уведомлять об этом потребителей и регулирующие органы. Как видно, угроза общественного неодобрения может стимулировать надлежащую профилактику. На эту же идею опираются экологические законы, которые требуют от компаний не снижения выбросов токсичных веществ, а лишь раскрытия информации о выделяемом их количестве: контроль и отчетность стимулируют сторонников внутри компании и в обществе в целом оказывать давление на компанию, чтобы снизить загрязнение. Сама лишь прозрачность информации может достигать социальных целей, которые трудно даются политическим путем.

Открытость станет важным способом контроля действий с большими данными и обеспечения надлежащей прозрачности для наборов данных, алгоритмов, предположений, статистических подходов и вытекающих из них решений. Проверки анализа больших данных могут потребоваться по решению суда, в рамках конкретного расследования или в качестве периодической меры (например, годовой финансовой отчетности для открытых акционерных компаний).

Конечно, прозрачность не означает, что компании будут разглашать конфиденциальную информацию. Публичное уведомление может содержать информацию о том, что организация проверяет или уже проверила свои прогнозные модели, не разглашая их суть. Такие уведомления характерны для современных проверок систем безопасности и конфиденциальности. Обязательная проверка и ограниченная огласка входят в требования, предъявляемые к компаниям, официально зарегистрированным на бирже до 2000 года; тогда компании должны были сообщать о своей готовности к полному изменению в своих отчетах на фондовой бирже.

Регулирующие органы США уже утвердили такой порядок в соглашениях на расследования Федеральной торговой комиссии (Federal Trade Commission, FTC), обязав Google и Facebook проводить аудит конфиденциальности раз в два года в течение 20 лет и предоставлять отчет FTC. Для компании Twitter срок аналогичных обязательств был установлен равным десяти годам. А после массовой утечки конфиденциальных данных о более чем 45 миллионах кредитных карт торговая сеть TJX, управляющая многочисленными магазинами уцененных товаров в США (T.J. Maxx и пр.), наряду с брокерами данных Reed Elsevier и Seisint согласилась ежегодно проводить независимый аудит безопасности в течение последующих 20 лет и сообщать о результатах в FTC.

Такой подход имеет ряд преимуществ. Лучше обеспечивается соблюдение требований, поскольку контроль осуществляется периодически в течение длительного периода. Главный вопрос поднимается на самые высокие уровни управления, а не остается в ведении ИТ-вундеркиндов, которые заняты решением повседневных задач для поддержания работы систем и могут поскупиться на надлежащие меры безопасности ввиду ограниченности времени и бюджета. Кроме того, этот подход изначально гибкий, а значит, передовая практика и надлежащие меры безопасности будут со временем меняться с учетом новых технологий и взглядов. Опорой служит более рыночно ориентированный механизм проведения проверок — участие независимых специалистов, а не регулирующих органов, которые не всегда достаточно компетентны, чтобы проводить такие мероприятия.

Бароны данных

Данные в информационном обществе — все равно что топливо в эпоху промышленной революции: крайне важный ресурс, подпитывающий нововведения, на которые полагаются люди. Без обширного, динамичного снабжения данными и надежного рынка услуг эти нововведения могут исчезнуть.

В этой главе рассмотрены три фундаментальных перехода в управлении, благодаря которым мы можем быть уверены, что темную сторону больших данных удастся укротить. По мере развития зарождающейся отрасли больших данных возникнет дополнительная задача первостепенной важности — защита конкурентных рынков больших данных. Мы должны предотвратить появление «баронов данных» — современный эквивалент баронов-разбойников ХІХ века, которые подмяли под себя железные дороги, производство стали и телеграфные сети США.

Для контроля этих ранних промышленников в США установлены чрезвычайно гибкие антимонопольные правила. Первоначально разработанные для железных дорог в 1800-х годах, позднее они были применены к другим компаниям, препятствующим потоку информации, от которой зависели компании, — от компании NCR Corporation (в 1910-х) до IBM (в 1960-х и далее), Xerox (в 1970-х), AT&T (в 1980-х), Microsoft (в 1990-х) и Google (в наше время). Технологии, впервые представленные ими, стали одним из основных компонентов «информационной инфраструктуры» экономики, и понадобилась сила закона, чтобы предотвратить их господство.

Для шумного рынка больших данных придется обеспечить условия, сопоставимые с конкурентной борьбой и надзором, которые уже успели закрепиться в этих технологических областях. Регулирующим органам потребуется найти равновесие между осторожными и решительными действиями. Антимонопольный опыт указывает, каким путем этого равновесия можно достичь. Но развитие технологий невозможно предугадать. Даже большие данные не могут спрогнозировать собственное развитие.

Антимонопольное регулирование обуздало злоупотребление властью. Удивительно, как превосходно принципы перемещаются из одного сектора в другой, а также между различными типами сетевых отраслей. Это словно вид мышечной регуляции, где каждая из технологий получает равную поддержку, что само по себе полезно, так как устанавливает равные условия для конкуренции, не предполагая ничего большего. Чтобы стимулировать здоровую конкуренцию в сфере больших данных, государственные органы должны применять антимонопольные правила. Кроме того, выступая одним из крупнейших в мире держателей данных, они должны выпускать свои данные публично. Подобные процессы мы наблюдаем уже сегодня.

Опыт антимонопольного регулирования заключается в том, что, определив всеобъемлющие принципы, регулирующие органы могут реализовать их, чтобы обеспечить необходимые гарантию и поддержку. Кроме того, три стратегии, которые мы обозначили: смещение защиты конфиденциальности от индивидуального согласия в сторону подотчетности пользователей данных, закрепление приоритетности человеческого фактора над прогнозами, а также создание нового класса аудиторов больших данных (алгоритмистов) — могут служить основой эффективного и справедливого управления информацией в эпоху больших данных.

Как это часто бывало в истории других нововведений (от ядерных технологий до биотехнологий), люди сначала создают инструменты, которые могут им навредить, а затем изобретают механизмы, чтобы от них защититься. В этом смысле большие данные занимают место в ряду таких сфер жизни общества, которые ставят перед нами задачи, не имеющие единственно верного решения. Они поднимают текущие вопросы о том, как мы распоряжаемся окружающим миром. Каждое поколение должно решать эти вопросы заново. Наша задача — оценить опасность этих новейших технологий, поддержать их развитие и собрать плоды.

Как и печатный станок, большие данные приводят к изменению порядка самоуправления в обществе. Это заставляет нас по-новому решать вечные проблемы и новые задачи, опираясь на основные принципы. Чего мы не должны допустить, так это неуправляемого развития больших данных, когда формирование технологии становится неподвластно человеку. Нужно способствовать развитию технологий, не забывая о безопасности людей.