— Какие основные риски, связанные с популярностью методов Big Data в социальных исследованиях?

— В 2017 году вышла книга Мэттью Салганика, которая называется «Bit by Bit». Она посвящена возможностям применения вычислительных методов в социальных науках. Салганик различает два типа исследовательских подходов: question-driven, идущий от вопроса, и data-driven, идущий от данных. Исследования, связанные с наукой о данных, основываются как раз на данных, являются data-driven. Многие утверждают, что исследования цифровых следов в социальном пространстве — это мейнстрим социальной науки ближайшего будущего.

Первый риск здесь вытекает из самого слова «мейнстрим»: мы оказались в ситуации сокращения методологического разнообразия. Определенный путь исследования утверждается едва ли не в качестве нормативного. Но методы науки о данных, позволяя делать предсказания, часто не дают возможности выстроить объяснение, интерпретацию. Тем самым вопрос о выборе метода оказывается связан с выбором определенного представления о функциях научного знания.

Вторая проблема поворота к вычислительной социальной науке заключается в том, что data scientists могут быть далеки от контекста, из которого взяты эти данные. Красота модели замещает контекстуальную связь, ясное соотношение организации теоретического объекта с реальностью, которую этот объект репрезентирует. А то, что репрезентация некой «реальности» требуется от науки о данных, обусловлено тем, что так видят ее полезность финансирующие инстанции и лица, принимающие решения, policymakers.

Третья проблема особенно видна на примере корпоративного сектора: данные не могут ответить на все вопросы. Часто они отвечают не так, как нам бы самим хотелось. При этом у исследователей данных нет возможности аргументированно защититься от политического давления, давления менеджмента, желающего вписать интерпретации этих данных в определенную систему решений. В этом смысле поворот к данным делает поведение пользователей более прозрачным, но не защищает нас от его прочтения, деформированного в целях обслуживания узко понятого спектра целей.

— Что означает ваше утверждение о том, что наука о данных не способна давать теоретические объяснения?

— Я бы выразился осторожнее. Наука о данных имеет богатый объяснительный потенциал. Однако пока мы чаще слышим утверждение о том, что сначала надо собрать как можно больше данных, на основе которых потом можно будет теоретизировать. Такие мысли выдвинул в 2008 году Крис Андерсон, редактор Wired, в статье «The End of Theory». В книге Франко Моретти «Дальнее чтение», переведенной на русский язык, говорится: сейчас не время для теории; возможно, не стоит быть чрезмерно преданными идеалу теоретически нагруженной и критически мыслящей науки. Хотя стоит признать: освобождение от теории — это то, чего хотели добиться многие левые интеллектуалы XX века.

Проблема заключается в том, что утверждение об отсрочке теоретической рефлексии имеет последствия за пределами академического сообщества. Исследователи рано или поздно выходят в плоскость потребителей этого знания в лице государств, корпораций, широкой общественности и, когда они слышат тезис о ненадобности теории, часто толкуют его как подтверждение давно известной им истины о том, что академики бесполезны «на практике». Их польза заключается лишь в сборе данных, но они ничего не могут нам сказать о том, что нужно делать. В этом смысле проблема отсутствия теории заключается в том, как этот факт прочитывается в широком контексте. А он прочитывается как отказ ученых от претензий на влияние в общественном контексте.

Ни Моретти, ни теоретики Digital Humanities, ни, скажем, Пол Дориш, выпустивший в 2004 году книгу «Что такое социальное действие», не претендуют на снабжение теории встроенным критическим модулем. Эта теория может работать на математических, алгоритмических моделях, но она сильно отличается от большинства социально-гуманитарных теорий прошлого: она буквально некритична. Был выпуск журнала Critical Inquiry, кажется, в 2007 году, где Бруно Латур так и заявил: «Критика больше не нужна, это исчерпанная процедура». Хотя он сам не представитель Data Science или вычислительной социальной науки, это заявление совпадает с общей идеологией этого движения.

— Удаленность исследователей от контекста наводит на ассоциации с колониальным знанием, лишенным локального контекста, имплементирующим одни и те же правила и нормы. В какой мере исследовательские практики Data Science наследуют этот принцип?

— В колониальных терминах это прочесть интересно. Благодаря Андре Горцу и другим мы знаем, что современный капитализм имматериален. В этом смысле капитализм данных приводит к формированию имматериального колониализма, при котором колонизируются не территории, а системы знания, каналов его накопления, анализа и распространения, а также скорости принятия решений, связанные с этим. В 2015 году вышла книга Джейми Пека и Найка Теодора «Fast Policies», в которой они отмечают, что мы являемся свидетелями колоссального ускорения политической динамики. Сегодня мы что-то делаем, а первый результат нам нужен уже завтра. Идея fast policies является в некоторой степени следствием тех инструментальных интерфейсов, которые в науке о данных используются для анализа реальности. Изменение реальности как бы совпадает для вас со скоростью производства необходимых вычислений. Вы написали код, обработали свою базу данных с его помощью, и вам кажется, что реальность, как и эта база данных, должна обрабатываться за секунды или хотя бы часы. В этом смысле «быстрые политики» оказываются плоскими с точки зрения представления временных режимов существования реальности. Сама идея медленного времени исчезает, но в реальности все не всегда происходит быстро.

Вторая проблема, в какой-то степени осознанная и в России, заключается в том, что если провайдером данных является государство или корпорация, то необратимым образом нарушается баланс приватного и публичного. Мы теряем возможность различать пространство частной жизни и пространство публичности. Теоретики вроде Хабермаса или постхабермасианские теоретики, которые эксплуатируют понимание демократии как основанной на соразделяемом пространстве публичности, промахиваются, ведь публичным сегодня становится не связанное с актом моего сознательного высказывания в институционально отрегулированном пространстве, а данные о том, как я регулирую радиаторы в своей квартире, как настраиваю систему освещения, сколько воды трачу.

Фактически это такая распределенная и приватизированная публичность, конденсируемая без моего участия с помощью технологических сетей. Тогда у граждан есть выбор между ретроутопическим бегством от государства в сторону дотехнологических образов жизни и попыткой переприсвоить централизованные структуры контроля и распределения данных. Второй вариант слишком слабо проработан, в нем как раз заключается нерв дискуссии, которую ведет, например, Эли Паризер, автор книги «За стеной фильтров», и другие современные активисты-теоретики, обсуждающие возможности уйти от власти больших корпораций, собирающих о нас почти все возможные данные и обменивающихся ими.

— С чем сейчас связан такой живой интерес к Data Science? Связано ли это с появлением самой возможности собирать столько данных?

— Во-первых, нужно понимать, что мы находимся на ранних стадиях развития науки о данных. В этом смысле энтузиазм действительно связан с относительной новизной самой возможности собрать огромное количество данных без особых усилий, проводя эксперименты не на тысячах человек, а на миллионах, что раньше было совершенно невозможно.

Проблема в том, что, говоря о том, что нам дает Big Data, как раз слово «нам» мы не можем четко определить. Мы — это зачастую корпорации, которые обладают достаточными вычислительными ресурсами, чтобы использовать все возможности, которые предлагает Big Data. Примерно так же, как с не менее модными сегодня криптовалютами. Да, можно заниматься майнингом, но для этого нужны большие вычислительные мощности, которых в распоряжении отдельных физических личностей нет. В этом смысле мы/Big Data не совпадает с мы/граждане. Это приватизированное «мы», и для него ситуация выглядит так, что использование Big Data является своим собственным обоснованием. Чем больше у нас данных, тем с большей точностью мы можем собирать еще больше данных.

Рекомендуем по этой теме:
2602
Визуальная аналитика

Циркулярная логика предполагает, что исключение чего-то из постоянного потока Big Data несет в себе слишком большие риски с точки зрения возможности участия в самых банальных социальных интеракциях. Эта система изначально построена асимметрично по отношению к отдельным пользователям. Хотя она обещает им большое удобство.

Для рядовых участников обмена в социальных сетях, пользователей поисковых машин или потребителей товаров Big Data не существует, так сказать, в осознанном виде.

Поэтому первое, о чем нужно говорить, — это повышение уровня осознанности в отношении предоставления своих данных и их анализа третьей стороной. Задача возврата себе права на приватность — осознание того, в какой степени я могу защититься от неконтролируемого сбора данных обо мне. Есть, например, приложение Privacy Badger, которое позволяет отслеживать все cookies, собирающие данные на каждом из сайтов. Big Data в разрезе отдельного человека — это вызов, который предстоит осознать, то, в отношении чего необходимо самоопределиться.

— Какой эффект имплементация policies, основанных на Big Data, имеет на общество? Имеет ли здесь место процесс гомогенизации или какой-то перформативный эффект, когда реальность становится такой, какой ее увидели исследователи?

— Эффект от внедрения этих policies пока невозможно оценить в долгосрочной перспективе. Относительно эффектов гомогенизации очевидная вещь состоит в том, что мы начинаем стремиться к все большей стандартизации внутриинституциональных процедур: собирать как можно больше отчетности в школах, больницах, корпорациях обо всех видах деятельности сотрудников. Это является эффектом Big Data. Когда мы говорим о Big Data, у нас сразу возникает вопрос о том, как мы их будем собирать, генерировать эти данные.

Уже были эксперименты с бейджами для корпоративных сотрудников, анализирующими количество и качество их коммуникативной активности в течение дня. Мы приходим к ситуации, когда работник находится в условиях тотального мониторинга, surveillance capitalism (капитализма надзирания). Здесь стоит бояться не столько гомогенизации, сколько сокращения пространства креативности, столь лелеемой современным капитализмом. Если люди знают, что каждая процедура регулируется, должна совпадать с определенным стандартом и находится в периметре действия механизмов наблюдения и сбора информации, то они будут интуитивно стремиться действовать по правилам, не нарушая инструкции. Тотальная правилосообразность — основной эффект практик надзорного, надзирающего (пусть неинвазивно) капитализма. Возникает неприятная альтернатива: или мы сохраняем возможность индивидуальной организации, но терпим риск некомпетентных импровизаций отдельных сотрудников, отказа от принятия решения, стресса, или мы внедряем разветвленную систему сбора информации, драматически сокращающую пространство индивидуального решения.

— Могли бы вы привести иллюстрацию того, как проблема отсутствия теории или контекста делает исследование в рамках Data Science ошибочным, неадекватно отражающим действительность?

— Хороший пример: программы помощи развивающимся странам. Многие программы по борьбе с болезнями в странах Африканского континента связаны с отсутствием доступа к базовым средствам санитарии и гигиены. С точки зрения использования Big Data решение подобной проблемы выглядит примерно так: нужно снабдить население датчиками, показывающими динамику качества воды в водоемах. Но в результате население наделяет эти датчики способностью самостоятельно менять качество этой воды — инструмент, внедряемый в среду для сбора данных, наделяется качествами трансформации этой среды. Если у меня есть такой инструмент, я начинаю считать, что водоем, который я им исследовал, выяснив, что он чистый, становится чистым именно благодаря этому инструменту. Получается, что заболеваемость, связанная с качеством воды, не падает, а как минимум остается стабильной — иногда сокращается, иногда растет. На этом примере можно сказать, что оторванность от контекста проявляется в том, что мы хотим, чтобы между исследователями и тем, о чем мы собираем данные, всегда стоял интерфейс нашего инструмента. Но тогда инструмент начинает восприниматься как самостоятельный субъект теми, о ком мы хотим собрать данные (это же касается и исследователей, которые работают в поле, — от них начинают ожидать реальных изменений ситуации). В результате коммуникация становится асимметричной, ведь инструмент не может отвечать, к нему обращаются так, как если бы он участвовал в изменении реальности. Это, пожалуй, самая большая проблема, и она предполагает, что колониализм специфически восстанавливается. Те, кто управляет данными, детерриториализированы, исключены из периметра, в котором протекает жизнь тех, о ком данные собираются. Главная практика управления как раз заключается в своевременной детерриториализации, исключении из контекста. А управляющий — этот тот, кто дистанцирован от контекста.

— Есть ли примеры исследований с применением подходов Data Science в сфере образования?

— В российском контексте отличным примером служит исследование Ивана Смирнова, который работает в группе «Науки данных в исследованиях образования» в Институте образования ВШЭ. Он собирает данные во «ВКонтакте» и других социальных сетях. Его исследования показывают, что отличники сбиваются в группы с отличниками, а двоечники — с двоечниками. Здесь наблюдается эффект гомофилии — однородности социального пространства, которая воспроизводится и в цифровом пространстве тоже. Интернет, в противовес утверждениям его ранних пророков, является не менее сегрегированным пространством, чем офлайн-среда. В частности, он сделал интересное исследование о длине слов, используемых авторами постов «ВКонтакте». Выяснилось, что с каждым годом она растет. Это хороший контраргумент для сторонников того, что сетевое общение наносит урон интеллектуальному развитию молодежи. Понятно, что самые распространенные слова в постах — служебные (вроде слова «действительно»), но тот факт, что длина используемых слов постоянно возрастает, очень любопытен. Другое дело, что у Смирнова нет этому внятного объяснения. Здесь хорошо видна привлекательность и одновременная проблематичность науки о данных: она может порождать интересные факты и предсказания, но не может информировать нас о причинах, по которым это происходит.

Мне кажется, что здесь есть две задачи. Первая — делать максимально публичными первые разобщенные опыты изучения цифровых следов в России (помимо Ивана Смирнова, это делает группа Даниила Александрова в Санкт-Петербурге), чтобы зародилось представление о том, какие феномены можно исследовать таким образом. Вторая — искать пути взаимодействия исследователей, занимающихся наукой о данных с исследователями более «традиционными» способами этнографической, антропологической полевой работы. Нам нужно думать о том, каким образом мы могли бы совместить науку о данных и новую дигитальную этнографию. Возможно, для этого стоит использовать вещи, которые исследователи пока не склонны рассматривать, — кейсы видеоигр, например. В видеоигры можно включаться не в качестве игрока, а в качестве призрачного наблюдателя, отслеживающего все, что происходит внутри игры (это так называемый феномен машинимы — встроенного в игру персонажа, не участвующего в ней, но наблюдающего за действием и срисовывающего происходящую активность).

Нам нужно, во-первых, хорошо осознать масштаб информации, которую нам позволяют собирать эксперименты с социальными сетями, во-вторых, побороть свое недоверие к этому, накопить минимальный объем информации о том, как такие данные собираются и в чем их ограничение. Есть понятное ограничение: 75% пользователей Facebook сделали 25 или меньше постов за всю свою жизнь. Бо́льшая часть пользователей социальных сетей безмолвны, зато оставшиеся 25% порождают гигантский объем информации, верхние 5% из них просто колоссальны. Эти перепады нужно понимать, чтобы правильно оценивать информацию, которую нам дает такой способ сбора данных. В-третьих, нужно искать новые стратегии развития традиционных методов типа этнографии, интервью, наблюдения. Что значит «цифровая этнография»? Как проводить наблюдение онлайн? Такого рода методологические вопросы сегодня интересно поставить.