Анализ социальных сетей в интернете

Специалист по современной технике медиакоммуникаций Берни Хоган o том, как собирались и анализировались электронные социальные сети и что могут дать их исследования

21.11.2013
33 506
tsevis

Есть одно многообещающее направление в социальных исследованиях, которое относится к сравнительному анализу общественных явлений. Вместо того чтобы делать выводы, исходя из набора характеристик объектов исследования, относительный (или сетевой) подход стремится основать выводы на различиях конкретных примеров интерсубъективного взаимодействия. Интернет позволяет исследователям получить достаточное количество данных, чтобы провести анализ подобного рода. Например, сети интернет-блогов (или блоги) объясняют модели информационного рассеивания и природу родственных сообществ; онлайн-сети взаимного цитирования являют как глобальные, так и локальные свойства научного производства; электронная почта демонстрирует модели коммуникативного баланса и примеры изменений сети во времени; анализ телеконференций являет новое понимание взаимности.

В данной статье автор стремится дать ясное определение социальным сетям интернет-пространства, а также произвести различение онлайн-сетей и других не менее интересных электронных систем и структур данных, дать читателю необходимый набор инструментов и навыков, требующихся для того, чтобы познать эти объекты. В статье будут описаны конкретные примеры того, как собирались и анализировались электронные социальные сети. В данной работе внимание сфокусировано на «изнанке» сбора и анализа данных, чтобы дать представление о том, что можно получить с помощью онлайн-исследований социальных сетей. Кроме того, читателям будут представлены различные подходы (качественный и количественный), разделение этих подходов впоследствии может способствовать дальнейшим академическим дискуссиям как в интернет-исследованиях, так и в аналитике социальных сетей в целом.

Введение

В этой статье читателям будут представлены история, понятия, метрики и методы социального анализа сетей онлайн-коммуникаций. Это будет сделано посредством изучения данных сайта Digg.com. Анализ социальных сетей – быстро развивающаяся междисциплинарная практика, которая основана на работе с данными онлайн-исследований. Некоторые понятия, которые включает подобный анализ, будут освещены только поверхностно, в то время как другие (такие как p* модели и многоуровневый анализ) будут исключены полностью. Цель статьи в том, чтобы открыть социальные сети читателям настолько, насколько необходимо для начала научно-исследовательской работы.

Анализ социальных сетей стали применять во второй половине двадцатого века как дополнение к стандартному набору инструментов социальных исследователей. В его основе лежит убеждение, что объяснения общественной организации нельзя найти в природных процессах или абстрактных силах. Вместо этого мы можем обратить внимание на структуры отношений, которые налаживают (или ограничивают) взаимодействия (Wellman, 1988), а также на поведение агентов, которые воспроизводят и изменяют эти структуры (Emirbayer and Mische, 1998). Данная парадигма применялась в исследованиях различных сфер социальных взаимодействий, таких как: сексуальные контакты среди подростков (Bearman et al. 2004), коммуникации в сообществе наркозависимых (Koester et al. 2005). Как показали исследования, анализ социальных сетей особенно хорошо подходит для понимания онлайн-взаимодействий. Есть два ключевых фактора онлайн-взаимодействий, которые делают их легко поддающимися сетевому анализу, – природа электронного взаимодействия и природа цифровой информации.

Онлайн-взаимодействия практически всегда имеют сетевую структуру. Даже в самых простых социальных сетях можно обнаружить группы узлов (таких как люди, организации или веб-страницы) и связи между этими узлами. Гипертекст (Всемирная паутина) является неструктурированной серией страниц и связей между страницами. Таким образом, электронная коммуникация может быть представлена как сеть отправителей и получателей. Наконец, отношения в социальных сетях интернета представляют собой серию узлов (профили) и связей (дружба) между ними. Так, Велман утверждает, что «когда компьютерные сети связывают людей так же как машины, то они становятся социальными сетями» (Wellman et al. 1996: 214).

Цифровая природа информации облегчает возможность получения данных о сетях. Представления о коммуникационных системах и отношениях были сформированы задолго до возникновения интернета. Однако сбор личных данных является затруднительной процедурой, отнимающей много времени; люди иногда сами не понимают, кто находится в их личной сети (или насколько сильна та или иная связь), а исследователю важно собрать точные данные о взаимодействиях. Эти проблемы могут быть минимизированы за счёт онлайн-исследований, потому что в них информация является цифровой и закодирована через акт отправки сообщения или добавления друга с помощью функционала интернет-страницы. Кроме того, в электронных социальных сетях несложно копировать сообщения для их дальнейшего анализа.

Сущность социальных сетей
Социальные сети в историческом контексте

В основе анализа социальных сетей лежит математическая теория графов (она представлена в работах таких авторов, как Эрдос, Харари и Раппапорт), а также эмпирические исследования в области социальной психологии и антропологии (Хайдер и Морено). В то время как первая группа учёных открывала различные законы построения абстрактных узлов и линий, последние обнаружили, что узлами и линиями удобнее всего обозначать отношения между людьми. Поскольку обе группы исследователей работали в одно и то же время (во второй половине двадцатого века), они сошлись на разработке серии метрик и методов, позволяющих выделять базисные структуры сложных эмпирических явлений. В качестве отдельной парадигмы метод анализа социальных сетей начал формироваться в 1970-ых. В 1969 году Стэнли Милгрэм опубликовал результаты эксперимента, обнаружившего феномен «маленького мира», где описал ставшее общепринятым понятие «шести рукопожатий» (Travers and Milgram, 1969). В 1973 Марк Грэноветтер опубликовал (теперь уже классическую) работу «Сила слабых связей». В этой работе он показал, как логика формирования отношений привела к возникновению различных групп и «слабых связей» между этими группами (Granovetter, 1973). В это десятилетие были опубликованы первые фундаментальные исследования социальных сетей (Fischer, 1982; Wellman, 1979). Были разработаны алгоритмы кластерного моделирования (White et al., 1976), были разработаны базовые метрики для анализа социальных сетей (Freeman, 1979), основаны журналы «Social Networks» и «Connections», а также организовано международное академическое сообщество INSNA The International Network of Social Network Analysts. В последующие десятилетия количество исследований, которые ссылались или непосредственно использовали анализ социальных сетей, многократно возросло. К этим исследованиям также можно отнести работы, посвященные взаимодействиям в корпоративном управлении (Mizruchi, 1982), корпус работ, посвящённых американским сетевым сообществам (Marsden 1987), логике распространения сетей (Rogers, 1995) и даже социальной структуре национальных государств (Wallerstein, 1997).

ScienceHub #04: Теория случайных графовМатематик Андрей Райгородский о структуре графа, вопросе надежности компьютерной сети и о том, как ловить спам

Расцвет вычислительной техники и интернета привел к качественному изменению в аналитике социальных сетей. На этом этапе свою роль сыграли исследования в области физики, биологии и информатики. Вместе они способствовали зарождению парадигмы «сетевой науки». Благодаря новым технологиям массивные области данных смогли собираться и обрабатываться в течение приемлемого времени. Это привело к отображению и анализу коммуникации не только в рамках школьных дворов или нескольких сотен личных сетей, но в рамках миллиардов узлов Всемирной паутины. В это время Ваттс и Строгатс показали, что «маленькие миры Милграма» можно обнаружить как в сетях киноманов, так и в нейронных связях (Watts, 2002). Посредством анализа Всемирной паутины Альберт-Ласло Барабаши продемонстрировал крупный класс сетей, известных как безмасштабные сети (Barabasi, 1999), которые были впоследствии обнаружены при исследовании сетей ДНК и онлайн-коммуникации (Barabasi, 2003). В это время статистики и социологи были заняты работой над дорогими в вычислительном отношении, но чрезвычайно многообещающими p* моделями, которые могут разбить разрозненную и на первый взгляд случайную социальную сеть на простые и неслучайные составные части (Wasserman and Pattison, 1996).

Новая эра сетевой аналитики наступила с появлением социального программного обеспечения, такого как, например, MySpace. (Появление соответствующего программного обеспечения в целом способствовало увеличению присутствия людей в интерактивных сетях). Вместе с тем у социологов появилась возможность анализировать миллионы электронных писем для выявления общих свойств коммуникации или определять связи тысяч блогов, чтобы изучать экзотические культуры и общественные движения. Впрочем, подобная глубокая аналитика стала возможной благодаря принятию сетевой концепции.

Что мы подразумеваем под сетью?

Проще говоря, сеть – это набор узлов (таких как люди, организации, веб-страницы или государственные образования). Также это отношения (или связи между этими узлами). Каждое отношение соединяет несколько узлов. Если отношение направлено, оно изображается как вектор; если не направлено – изображается как ребро. Почтовая сеть, например, является направленной сетью отправителей и получателей. Социальная сеть, организованная с помощью программного обеспечения, обычно является ненаправленной сетью друзей [пользователей].

Предпосылкой появления сетевого анализа является то обстоятельство, что сети представляют собой структуры, которые могут ограничивать или поощрять общественные коммуникации. Например, если есть только один узел, соединяющий две группы, тот этот узел особенно важен в информационной передаче: он может даже управлять информацией, поскольку через него проходят информационные потоки (Burt, 1992). Кроме того, сети представляют собой интересные структуры с точки зрения их свойств: иллюстрация всех произведённых соединений почтовой сети будет наглядным и понятным образцом отношений для владельца этого почтового ящика (Fisher, 2004).

Вопреки постмодернистскому пониманию сетевой сущности, выраженному в частности «Акторно-сетевой теорией» Бруно Латура (Callon and Law, 1997), или «ризомой» Делёза-Гваттари, сетевой анализ работает лучше всего, когда все узлы сети принадлежат к одному классу объектов. Например, если у одного блога может быть более одного автора, для анализа сети блогов будет достаточно данных о самих блогах, а не обо всех их авторах или связанных с авторами веб-страницах. Чтобы исследовать более одного типа объекта (например, блогеров и комментаторов), можно использовать «двухуровневый анализ», который подразумевает собственный набор различений. Отношения в этом случае должны иметь тот же тип, что и узлы. Если исследователь связывает адреса электронной почты, ему не следует строить сеть в случае, когда одно отношение обозначает «находится в адресной книге пользователя «А»», а другое – «посылать электронное письмо пользователю «А»». Подобные упрощения общественных отношений до единственных типов узлов и отношений позволяют исследователю нанести сложные сети на целостную картину отношений между людьми.

В зависимости от цели исследования можно выстраивать или очень большую, но поверхностную социальную сеть, или серии небольших, но подробных сетей. Следующий раздел посвящён трём видам сетей. В нём будут проиллюстрированы подходы социологических исследований, открытия социологов как онлайн-, так и офлайн-анализа в отношении каждого из трёх типов сетей.

Типы социальных сетей
Цельные сети

Цельные сети – это отношения людей в пределах определённо очерченных границ. Примеры подобных объектов, использующихся в онлайн-исследованиях: электронная почта, списки рассылки, социальные сети интернет-пространства (такие как MySpace), люди, работающие в одном офисе, которые связаны локальными сетями. Цельные сети – наиболее часто используемые объекты в анализе социальных сетей. Однако данные объекты не всегда могут быть использованы. Они могут меняться в зависимости от практических требований исследователя; сбор информации о сети размером с офис не является особенно трудной задачей, но получение действительного списка всех пользователей сети MySpace фактически невозможен, поскольку этот список будет меняется во время сбора данных. В рамках исследования цельных сетей исследователь задаёт вопросы о групповой структуре, специфических типах сетевых пользователей, о выдающихся пользователях. Электронные методы позволяют исследователю собирать достаточно скромные данные по цельным сетям (Webb et al., 2001). Например, можно рассмотреть структуру взаимных ответов зарегистрировавшихся участников телеконференции. Работа Смита и его коллег в рамках исследования, организованного Майкрософт, проиллюстрировала, что в некоторых группах телеконференций есть особенно выделяющиеся индивидуумы, альтруистично отвечающие на вопросы других участников, в то время как другие группы имеют структуру свободной дискуссии (Smith, 1999; Fisher et al. 2006, см. эту главу и далее по тексту).

Цельные сети могут быть построены активным образом. Обычно это делается по списку. При таких условиях каждый может обратиться к любому члену сети и спросить о его или её связях со всеми остальными членами, указанными в списке. Каждый список – это строка в матрице (часто в крупноформатной таблице), который может использоваться, чтобы построить дуги от респондентов ко всем остальным участникам. Активный сбор данных может быть полезен, когда оценивается субъективное состояние участников или когда необходимо выяснить их отношение к сети в целом; тогда как скрытый сбор данных пригоден для исследования поведенческих линий (см. Janetzko).

1
Рисунок 1. Три типа сетей.

Эго-сети

Основная цель анализа цельных сетей – выявить особенности сети, а также определить, почему некоторые люди занимают особое положение в ней. Например, есть ли в данной сети сложные подгруппы, или почему некоторым индивидам всегда отвечают? В отличие от этого, анализ эго-сетей сравнителен по своей природе. С его помощью определяется разница в размерах, формах и качестве разнообразных эго-сетей. Эго-сети, как правило, представлены спонтанной выборкой пользователей. Притом, исследователь всегда стремится к представительности (даже эфемерной) подобной выборки. Каждый элемент выборки в подобном анализе обозначается как «эго», а узлы, связанные с эго, обозначаются как «другие». Исследователь может собрать данные или звездообразной сети (эго-узел и его связи с другими узлами), или полной эго-сети (которая включает также связи других узлов друг с другом).

Исследователь может обнаружить эго-сеть в социальных сетях интернета. В таком случае это будет список (такой как список друзей). Далее, в ходе анализа списка можно будет понять, кто к кому привязан.

Сбор данных об эго-сетях может основываться на уже имеющихся результатах различных исследовательских техник и интервью. Наиболее известная из них – генератор имён (Hogan et al., 2007; Burt, 1984) и генератор позиций (Lin et al., 2001). Также используются такие методы, как генератор ресурсов (Van Der Gaag and Snijders, 2005) и метод суммирования (iBoase et al., 2006; McCarty et al., 2000). Все эти методы, за исключением генератора имён, не до конца разработаны и не позволяют собирать данные о связях между «другими».

Неполные сети

Неполные сети – это, по сути, выборка из относительных данных, созданная методом снежного кома. Неполные сети являют собой компромисс между желанием охватить цельную сеть и тем фактом, что некоторые цельные сети просто слишком массивны, чтобы их охватить целиком. Исследователь может начать с одной-единственной веб-страницы или нескольких страниц (так называемого «посева»), далее он будет искать страницы, связанные с этим посевом, а затем страницы, связанные с этими страницами. Процесс организации выборки заканчивается, когда собрано достаточное количество страниц; когда собраны все возможные страницы; или когда выборка соответствует определенному критерию (например, когда собраны все страницы с более чем 400 словами).

Неполные сети – это практичное решение для анализа довольно большой совокупности данных, расположенных в сети интернет. Исследователь не может собрать сведения обо всех блогах, или пользователях MySpace, но он может выстроить сеть отношений, которая соединяет эго-сети многих пользователей. Так как в интернете легче применять технику снежного кома, чем в офлайне, мы можем предположить, что количество исследователей, использующих неполные сети, чтобы ответить на вопросы об онлайн-поведении, будет расти на глазах. На данный момент использование неполных сетей – это активно развивающаяся исследовательская область, также называемая анализ цитирования (Thelwall, 2004; Park, 2003).

Поскольку каждый исследователь работает за пределами посева, использование неполных сетей обусловлено некоторым беспокойством по поводу обобщаемости результатов исследования. Как отмечает Ротенберг, осуществление отбора страниц посредством снежного кома в социальных сетях «при отсутствии вероятностной выборки, при неудачной статистической надстройке, и, в принципе, при отсутствии желательных статистических свойств, не приемлемо для исследователя» (Rothenberg, 1995: 106). Это, с одной стороны, ограничивает статистические обобщения, но с другой стороны, не сокращает описательный анализ и его выводы. Таким образом, обобщения производятся не на статистическом, а на теоретическом уровне. Кроме того, исследователь может собрать большую часть материала с помощью успешно организованного посева и исследовать все связи, отвечающие определённым условиям (такие как присутствие особого набора ключевых слов).

Источники данных онлайн-сетей
Журналы (логи) почтовых серверов

Есть бесчисленное количество способов использовать почтовые аккаунты для анализа социальных сетей. Прежде они использовались для демонстрации различий между социальными и организационными структурами (Adamic and Adar, 2005), различий в коммуникационных моделях непосредственной и электронной коммуникации (Loch et al., 2003; Haythornthwaite, 2005), для того, чтобы помочь объяснить переизбыток почтового трафика и разграничение между работой и домом (Hogan and Fisher, 2006).

К сожалению, электронная почта – это перегруженная технология (Whittiker and Sidner, 1996), исследователь вынужден признать, что почту часто используют не по назначению. Электронная почта – это система массовой коммуникации, которая используется для обмена файлами, для массовой рассылки, как виртуальная записная книжка, как контакт-менеджер. Всё это – вариации использования одного почтового ящика. Прежде, чем исследователь сможет проанализировать электронную почту как социальную сеть, ему придётся иметь дело со многими из этих случаев.

Сбор данных: Есть много способов получить почтовые данные. Рассмотрим несколько основных: «сервер-стратегию» и «клиентскую стратегию».

Сервер-стратегия: исследователь получает в распоряжение всю почтовую ленту на уровне университетского домена, например @utoronto.ca, он допускает, что это – основная электронная почта для участвующих в переписке. Такое предположение более верно для рабочих серверов, нежели серверов образовательных учреждений. Однако, строгая политика удаления не относящейся к работе электронной почты заставляет людей отказываться от использования рабочей почты при отправке чего бы то ни было, кроме официальной корреспонденции. Это говорит о том, что исследователь всё же может собрать массивную базу данных и получить интересные результаты, применяя эту стратегию. Например, Коссинетс и Вотс (Kossinets and Watts, 2006) проанализировали миллионы сообщений годовой почтовой ленты таким образом.

Клиентская стратегия: сбор данных предполагает использование специального программного обеспечения или специального скрипта для мониторинга работы электронной почты. Данные покупаются в специальных хранилищах, после чего помещаются в базу. Клиентская стратегия хорошо подходит для персонального сетевого анализа, так как исследователь способен построить сеть на своём компьютере и сравнить её с другими, подобным образом сконструированными сетями. Данная стратегия не идеальна для анализа цельных сетей, поскольку у исследователя есть данные только по индивидуальным почтовым адресам. Стратегии, представленные ниже, являются преимущественно клиентскими.

Построение сети: Почтовые сети, как правило, это нагруженные, направленные сети. Их дуги идут от отправителей к получателям. Так как сообщения часто отправляются более чем одному человеку, а получатели, в свою очередь, отвечают всем сразу, связи между различными электронными адресами в почтовой истории являются не только соединениями между получателями (владельцами почтового ящика) и отправителями, но также соединениями между отправителями. Из-за этого почтовые сети считаются нагруженными системами.

Пороговые значения для электронной почты: Когда исследователь работает с почтовыми данными, полученными с сервера, он может иметь полный список адресов, связанных с данным доменом. Таким образом, он имеет возможность сосредоточиться на сообщениях конкретных пользователей. Но если исследователь не ограничивает анализ связями между определенными адресами, ему придётся отделять релевантную корреспонденцию от рассылки и спама. Это может быть достигнуто с помощью структурных метрик, посредством которых цельная сеть урезается до определённых сообщений, из которых создаётся неполная сеть.

Чтобы урезать сеть до актуальной корреспонденции, исследователь может использовать пороговые значения. Он может обозначить пороги для четырёх зон сети. На рисунке 2 изображены эти пороги (с уровнями 3 и 4, стянутыми в одну зону).

2

Рисунок 2. Три зоны электронной почты
Примечание: наиболее удаленная зона включает всю электронную почту: DL, «списки рассылки» и спамеров. Вторая зона включает только почту, непосредственно адресованную респонденту. Третья зона – взаимная корреспонденция, где отсеян спам и прочий почтовый мусор.

Зона 1: все сообщения, включая спам, списки рассылки, рассылку анонсов, и т.д. Зона 2: «эго-окрестность». Субъекты в этой зоне отправляют сообщения непосредственно эго, или получают сообщения непосредственно от эго. Таким образом, устраняются сообщения из рассылок, в список которых добавлен эго, а также устраняется корреспонденция, отправленная в копии. На практике потеря сообщений-копий минимальна, поскольку исследователь может включать такую «копированную» почту в зону, если её отправитель регулярно отправляет письма эго. Зона 3: симметричная эго-окрестность. Включает в себя сообщения от эго к реципиенту и от реципиента к эго. Данное ограничение устраняет все остающиеся сообщения из списков рассылки, поскольку на автоматическую рассылку не отвечают. Оно также устраняет спам, почтовый мусор, квитанции и прочие сообщения, на которые никогда не отвечает эго. Зона 4: ограниченная эго-окрестность. В зоне должно быть, по крайней мере, n сообщений от эго и (или) n сообщений от его реципиента. Это отделяет «существенные контакты» от мимолетной корреспонденции. Адамик и Адар (Adamic and Adar, 2005) считают, что это число должно равняться шести сообщениям «от» и «к» эго (n = 6). Эти авторы использовали ещё более минимальный подход в упомянутой (неопубликованной) работе – одно сообщение; при том что сумма сообщений «от» и «к» должна была равняться или быть больше четырёх. Реальное количество сообщений варьируется в зависимости от проекта, но оно должно быть тщательно обоснованно, так как пока ещё практика определения порога несколько эвристична.

Вопросы приватности данных из почтовых хранилищ: Есть много стратегий охраны персональных данных пользователей электронной почты. Некоторые из них могут ограничивать предполагаемый анализ, из-за чего исследователю придётся выбирать между неприкосновенностью персональных данных пользователей и вопросами исследования. Полный сбор информации о почтовом аккаунте может быть идеальным методом для исследователя, однако, неприемлемым для потенциального респондента. Кроме того, масштабные исследования почтовых аккаунтов предполагают работу с большим объёмом данных, который будет сложно анализировать. Пути решения этих проблем: Удаление текстов сообщений: Данная стратегия блокирует возможность текстового анализа, но позволяет резко сократить объём используемых данных. Кроме того, это может быть хорошим стимулом для привлечения респондентов.

Выполнение всей текстовой обработки с помощью клиента: Если исследование предполагает анализ текстов сообщений, оно может быть выполнено с использованием компьютера клиента. Для исследователя должна быть сохранена техническая информация (такая как: количество слов, частота использования ключевых слов, использование таких местоимений как «он» или «она»), а не полнотексты сообщений.

Маскировка адресов: с технической стороны, адреса электронной почты могут быть замаскированы с помощью хэширования, которое шифрует адреса так, что они представляются как последовательность уникальных символов, но не поддаются расшифровке. Есть три уровня защиты хэша. Первый – двусторонний хэш. Адрес в этом случае закодирован, но может быть расшифрован соответствующим ключом. Это имеет смысл, когда исследователь хочет использовать дополнительную информацию об адресах электронной почты (такую как должность в компании). Второй уровень – необратимые хеш-функции. Использование этого уровня защиты означает для исследователя, или кого-либо еще, что он не сможет определить адрес после его обработки. Адреса могут быть обработаны таким образом на уровне почтового хранилища. Использование этого уровня защиты позволяет исследователю выстроить метасеть на основе большого массива данных, не нарушая конфиденциальность владельцев электронной почты. Третий уровень защиты – это необратимые хэш-функции с криптографической солью. В этом случае адрес также не может быть расшифрован, а добавление криптографической соли предполагает, что почтовые хранилища обрабатывают данные таким образом, что один и тот же адрес выглядит иначе, если он получен из другого хранилища. В таком случае исследователю доступен только сравнительный анализ эго-сетей, но это самая безопасная стратегия.

Блоги и прочие интернет-страницы

Поскольку интернет – это одна гигантская сеть, для её изучения имеет смысл применить сетевой подход. Данный подход позволит проникнуть непосредственно в суть веб-структур и различных площадок, изучаемых в рамках сетевой науки. В пример можно привести недавно ставшее известным бесмасштабное распределение интернет-сайтов, упомянутых выше. (Барабаси и Альберт, 1999). Ещё одно открытие, близкое к классической социологии, сделано в результате анализа связанных паттернов либеральных и консервативных американских блогов. В трёх разных исследованиях авторы пришли к выводу, что консервативные блоги являются более плотными и менее центрированными, по сравнению с либеральными блогами. Притом, что либералы и консерваторы в интернете формируют две различных подгруппы (Adamic and Glance, 2005; Ackland, 2005; Hargittai et al., 2007). Различия между этими двумя подгруппами могут влиять на то, как быстро расходятся идеи в их блогах, насколько легко в них достигнуть консенсуса, и насколько просто мобилизовать ресурсы и людей.

Методы сбора и обработки данных

Чтобы собрать данные о сети в интернете, нужно или использовать уже существующий архив или собрать новые данные, используя скрэперы (скребки) и спайдеры (пауки). Скрэперы – это автоматизированные компьютерные программы, которые берут веб-страницу и парсят ее контент, таким образом, этот контент становится пригодным к использованию в качестве данных. Спайдеры – это специальный класс программ, они следуют по рёбрам связей и собирают информацию. Для спайдеров часто используется «первоначальный посев» – база специально отобранных страниц. Спайдеры возвращают набор пар «нод-нод», который образуется между нодами из «первоначального посева» и новыми страницами.

Исследователь может повторять сбор данных вновь и вновь до тех пор, пока не выявит все связи или пока исследование не удовлетворит определённому критерию (например, такому как два шага за пределы «первоначального посева»). После чего эти пары могут быть собраны в базу данных сети. Спайдеринг – обычная практика для поисковых систем и для анализа гипертекста. Однако исследователь должен быть осторожен, ему нужно сделать все возможное, чтобы анализировать только существенные связи (а не рекламные объявления), необходимо уважать информационную политику сайтов (обычно её описание содержится в файле robots.txt, например www.google.com/robots.txt) и (или) получить официальное одобрение от службы поддержки сайта, как правило, в обмен на предложение консультации по вопросам практического использования данных и спайдеринга (Schrenk, 2007).

Также существуют информационные базы, которые могут быть использованы для сервисов по сбору сетевых данных. Самым крупным является интернет-архив «Alexa», который сейчас находится в процессе создания массивной базы данных, доступной для исследователей Корнелльского университета. Кроме него, исследователи могут использовать архив «Wayback machine» для анализа веб-страниц, созданных начиная с 1996 г. Alexa также создаёт актуальные рейтинги самых популярных сайтов. Также можно упомянуть частную базу данных интернет-трафика Нильсена Нетрэтингса и его компании Nielsen BuzzMetrics, которая предлагает публично доступную базу блог-траффика.

Социальное программное обеспечение

Классические социальные сети сегодня наиболее явно представлены в интернете социальным программным обеспечением (СПО). Пользователи подобных программ стимулированы создавать особые связи. Эти связи зачастую называются «друг», «приятель» или «партнер». Примером сайта с социальным программным обеспечением является Friendster, правда сегодня его популярность уменьшилась в пользу других многочисленных сайтов, таких как Facebook, MySpace, YouTube (Bausch and Han, 2006). Эти и подобные им сайты наглядно показывают дихотомические связи между людьми и это, вероятно, может подтолкнуть исследователей к изучению их структуры. К сожалению, уже самые первые работы в данной области окончательно подтвердили тот факт, что дружба, опосредованная СПО, качественно отличается от дружбы «офлайн» (Boyd, 2006).

В мире социального программного обеспечения термин «друг» обозначает отношения между двумя акторами, он синонимичен терминам «связь» или «ребро», которые употребляются в сетевом анализе. Когда у человека сотни «друзей» в интернет-сетях, взаимный эмоциональный компонент понятия искажается. У этого термина остаётся мало общего с изначальным смыслом слова, он становится менее значимым и скорее инструментальным. Так, Д.Бойд приводит причины, по которым люди становятся онлайн-друзьями:

«[Потому что] это настоящие друзья; потому что вы вежливы с людьми, с которыми вы только что познакомились… потому что выглядят хорошо; потому что эта связь имеет статус; для того, чтобы следить за чьими-то сообщениями, сводками новостей и прочими такими вещами. Чтобы заострить внимание на частной проблеме, которую вам уже приходилось решать; [из-за] ваших родителей; вместо установки закладки или внесения в избранное; [и потому что] проще сказать да, чем нет, если вы не уверены» (Boyd, 2006, p. 3). Таким образом, причины онлайн-дружбы – это не просто различные градации того же понятия, как в случае с «близостью» – взаимной субъективной связью – онлайн-дружба отражает фактически разные виды отношений (Hogan et al., 2007; Burt, 1984; Granovetter, 1973). Связи в интернет-сетях могут быть проанализированы почти таким же способом, как и ссылки на интернет-сайты. Основное различие между ними заключается в том, что на некоторых из интернет-сайтов можно видеть связи между людьми вплоть до «четырёх рукопожатий», тогда как на других сайтах нельзя посмотреть профили и ссылки без личного разрешения пользователей, что приводит к разрывам в построении сети.

Анализ сетей посредством визуализации и статистики. Основы

Когда исследователь соберёт необходимые данные о сети, он cможет задать конкретные вопросы, касающиеся её структуры. Для этого он может использовать методы линейной регрессии, может работать с помощью нанесения данных на карту или использовать сетевой анализ, которому присущи специализированные метрики. Все эти три подхода правомерны и регулярно используются. В данной главе представлен обзор специализированных метрик сетевого анализа.

Первые шаги: картография сети

Как правило, первый шаг в сетевом анализе – визуализация. Визуализированные графы – это превосходные модели для быстрого распознавания образов. Они могут рассказать смотрящему человеку, какие узлы являются ближайшими, по какой причине и где можно найти плотные кластеры активности. В дополнение к примерам, представленным в настоящем исследовании, можно привести проект «Visual Complexity», который содержит большое количество сетевых диаграмм из исследований социологов других учёных .

Визуализация – это распространенная техника, её часто применяют в исследованиях социальных сетей, кроме того, использование визуализации в презентациях предполагается этикетом. Тем не менее, пользу от визуальных диаграмм можно переоценить – это интерпретирующие инструменты, а не определённые факты. В любом случае, моя визуализация должна быть сильно искажена, для того чтобы выделить те аспекты графа, которые я считаю примечательными (то, на чём исследователь акцентирует внимание в табличных данных). Как говорил Сократ, «необдуманная жизнь не стоит того, чтобы её прожить»; так и неинтерпретируемый граф не стоит представлять. Более того, общепринятые схемы могут служить предвзятости познания, например, при рассмотрении узлов, помещенных в центр, для того чтобы они были более заметными, независимо от их реальной значимости (McGrath et al., 1997).

Восприятие сети как единого целого: плотность и объединение в кластеры

Плотность – это отношение числа имеющихся рёбер графа к максимально возможному количеству рёбер данного графа. Плотность – распространённая метрика, она используется в первую очередь при сравнении графов одного размера, или при сравнении графа с самим собой во времени. К сожалению, плотность может вводить в заблуждение при сравнении графов различных размеров. Это является причиной вечной проблемы определения того, плотен ли граф или нет. Одно из решений этой проблемы: необходимо вычислить плотность условной средней сети (состоящей из узлов среднего уровня) и сравнить эту плотность с имеющимися данными. Другой решение: обсуждать плотность сети только относительно плотности подобных ей сетей. Но чаще всего исследователи не интересуются плотностью как таковой, а скорее тем, как кластеризован граф.

Коэффициент кластеризации – это метрика, которая является более эффективной, чем плотность, и её всё чаще используют в общественных науках (Watts, 1999; Newman, 2003b; Kossinets, 2006). Коэффициент локального объединения в кластеры (коэффициент кластеризации) является мерой того, насколько хорошо связанны ноды с конкретным узлом. Коэффициент кластеризации – это значения кластеризации для всех узлов графа. Когда коэффициент кластеризации высокий – это означает, что граф чрезвычайно плотно сгруппирован вокруг нескольких узлов; когда он низкий – это значит, что связи в графе относительно равномерно распространены среди всех узлов. Применяя коэффициент кластеризации, Коссинетс и Вотс показали, что почтовая сеть одного из крупных американских университетов не становилась более кластеризованной в течение учебного года (Kossinets и Watts, 2006). Личные сети студентов и преподавателей становились более или менее сгруппированными по мере того как люди добавляли в них новые связи или удаляли старые, но конечная кластеризация графа оставалась такой же.

Ключевые понятия сетевого анализа: центральность

Мера центральности описывает выдающееся положение конкретного узла по сравнению с другими узлами. Средняя мера центральности также известна как централизованная оценка и указывает, насколько плотен граф по отношению к каждому узлу. Есть три показателя центральности: центральность по степени, центральность по близости и центральность по посредничеству. Для уточнения дополнительных деталей и формул см. Freeman (1979).
Центральность по степени – это отношение количества связей определённого узла к общему количеству других узлов. В случае направленной сети существует две отдельных меры ЦС: входящая (indegree) и исходящая (outdegree). Входящая указывает число связей, направленных к узлу, а исходящая – число связей, направленных от узла. Если ЦС = 1, это указывает на то, что определённый узел связан со всеми остальными узлами сети, в то время как ЦС = 0 указывает на то, что узел изолирован. Так как многие интернет-сети являются направленными, есть определённый смысл в том, чтобы использовать входящую и исходящую центральность по степени. Высокая исходящая центральность по степени указывает на то, что узел является «властным»; это такой тип человека или сайта, который может быстро распространить информацию среди других людей. Высокая входящая центральность по степени указывает, что узел – «знаменитость»; это значит, что за таким типом человека или сайта будет следить много людей. Google.com имеет миллиарды внешних ссылок на другие сайты. Это – власть. YouTube.com имеет относительно немного ссылок на другие сайты, однако, много людей размещают ссылки на YouTube или встраивают его контент на собственные страницы. Это – известность.

Центральность по близости выражает, насколько близко узел расположен к остальным узлам сети. По мнению Фримана, это мера эффективности, так как узел, который является наиболее близким к остальным узлам графа, лучше всех подвержен восприятию новой информации или вируса. Формально центральность по близости выражается как отношение числа других узлов графа к сумме расстояний между определённым узлом и всеми другими. Если БЦ = 1, это означает, что определённый узел связан со всеми другими узлами. Вероятно, что сайты СМИ, которые имеют блог-платформы, такие как Gizmodo.com и DailyKOS.com имеют очень высокий показатель БЦ. Они содержат ссылки на большое количество других сайтов, и многие другие сайты, в свою очередь, ссылаются на них.

Центральность по посредничеству выражает, сколько кратчайших путей между всеми нодами сети проходит через определённый узел. Центральность по посредничеству – это мера контроля. Если у какого-либо узла высокий показатель ЦП, можно предположить, что он – единственная связь между различными частями сети.

Рассмотрение сетевых групп: связные подгруппы и обнаружение сообществ

На полпути между общими метриками, использующимися для анализа цельных сетей, и метриками, применяющимися для анализа индивидуальных сетевых особенностей, находятся методы обнаружения сообществ и связных подгрупп. Методы подгрупп используются для обнаружения особо плотных по связям районов в пределах единой сети, тогда как алгоритмы обнаружения сообществ помогают разделить сеть на части, которые достаточно плотны относительно всей сети.

Общие методы связи подгрупп: наиболее характерная для этого подхода мера – клика. Клика является максимально полной подгруппой (то есть в ней все узлы связаны). Понятие клики имеет «смягчённый» аналог – k-плекс , где не все, но большинство узлов подгруппы связано (Seidman and Foster, 1978). Однако притом, что понятие k-плекс хорошо работает в теории, на практике k-плекс редко используется. Наиболее известное исключение – когда k-плекс использовались для оценки встроенности людей в сети (Moody and White, 2003). Ещё одна метрика – компоненты, она измеряет количество связанных подграфов в сети. После удаления эго из личной сети эта мера показывает, насколько фрагментирована сеть с точки зрения эго.

Формула сообществаПочему понятие сообщества утрачивает значение?

Алгоритмы обнаружения сообществ: в информационных науках алгоритмы обнаружения сообществ являются весьма распространённой техникой. Наиболее популярен сегодня алгоритм Гирвана-Ньюмэна (Girvan and Newman, 2002). При использовании данного метода исследователь последовательно удаляет рёбра с самым высоким показателем центральности по посредничеству. Объясняется это так: если есть две плотные группы, любое ребро, связывающее их, будет обладать наибольшим показателем центральности по посредничеству. Однако в этой метрике есть некоторая произвольность, и она применима не в любых условиях. Лучше использовать метрики, которые предложил Ньюмэн, они позволяют иллюстрировать плотные по связям районы графа с большей точностью (Newman, 2006).

Рассмотрение характеристик узлов сети: гомофилия и ассортативность

Вышеупомянутые метрики позволяют рассматривать все узлы в равной степени, притом, что они, будь то авторы или сайты, имеют различные признаки. Зачастую исследователю было бы интересно узнать, связываются ли узлы одного типа друг с другом, и связываются ли они друг с другом чаще, чем это происходит при случайных связях? Так, соединение одинаковых узлов обозначается термином гомофилия. Например, топ-блогеры, вероятно, будут связаны с другими топ-блогерами, или с блогами менее высокого статуса из числа их друзей. Макферсон и его коллеги представили превосходный обзор по гомофилии и объяснили многие тонкости данного свойства (McPherson et al., 2001). Они отмечают, что гомофилия – это настолько обязательное понятие в анализе соцсетей, что недостаточно просто спросить, существует ли гомофилия в соцсети – нужно поразмыслить над тем, какой тип гомофилии обеспечивает логику организации сети.

Смешанная ассортативность – это несколько отличающийся вариант гомофилии. Изначально данное понятие разрабатывалось в рамках эпидемиологии (Gupta et al., 1989), эта метрика показывает, свяжутся ли индивиды с подобными себе, непохожими или идентичными индивидами. Ньюмэн написал ясный и краткий обзор использования смешанной ассортативности в интернете (Newman 2003a). Он показал, что социальные сети совсем неоднородны в отношении положения пользователей. А именно, люди с высоким положением обычно связаны с такими же людьми, так же, как и люди низкого положения связаны с подобными себе индивидами. В противоположность инфраструктура сети интернет не классифицирована – серверы, которые имеют более высокий статус, связаны с компьютерами, которые сравнительно ниже по статусу.

Отдельные примечания для персональных сетей

Все вышеописанные метрики применимы для анализа цельных сетей, однако многие из них также применимы для исследования персональных сетей. Единственная деталь в этом случае, которую стоит принять во внимание: одни метрики требуют включения эго, в то время как другие требуют его исключения. Наиболее специфические метрики – это центральность по близости и центральность по посредничеству, которые находятся в зависимости от геодезии сети (кратчайших путей). Для применения этих метрик стоит исключить эго, поскольку эго обычно соединяет остальные ноды сети. Маккарти сделал превосходный обзор того, как применяются многие из этих метрик в исследованиях персональных сетей, а также рассмотрел основные методы и примеры наиболее успешной практики (McCarty, 2002).

Продвинутые сетевые метрики

Описание более продвинутых метрик сетевого анализа не включено в данное исследование. Чтобы найти информацию о них, читателю следует обратиться к новейшим исследованиям социальных сетей (Carrington et al. (2005), the Journal of Mathematical Sociology, the journal Social Networks for additional techniques and information). Также исследователь может ознакомиться с недавним собранием работ по физике и информатике под редакцией Ньюмэна (Newman et al., 2006).

Digg.com: пример сайта с социальным программным обеспечением

Рассмотрим применение сетевого подхода на примере анализа популярного новостного агрегатора Digg.com. На Digg пользователи публикуют и дают оценку различным новостям. Наиболее популярные новости дня публикуются на главной странице и получают, как правило, более миллиона голосов. Как и многие подобные сайты, Digg.com позволяет своим посетителям искать друзей и создавать сообщества. Новости, за которые проголосовали друзья, автоматически собираются для пользователя.

Одна из претензий к Digg.com – то, что система находится во власти определённой группы людей, которые, поддерживая новости друг друга, формируют повестку дня. Настоящий анализ показывает, что Digg действительно находится во власти одной группы (нескольких ключевых пользователей), но эти люди не единственные, кто определяет повестку дня. Скорее они являются тематическими брокерами по отношению к остальным пользователям Digg. Это утверждение обосновывается посредством поверхностного анализа ключевых пользователей Digg.com .

Сбор электронных данных с помощью скрэпинга

Сбор данных об электронной социальной сети (или сетях) является технической задачей. Сегодня всего лишь несколько пакетов программного обеспечения позволяют нетехническим специалистам эффективно собрать связи. Отметим также, что эти программы являются проблемно-ориентированными. Самостоятельно собрать желаемые данные трудно, и исследователю для сбора данных действительно нужно обратиться к некоторым автоматизированным средствам. Существует две основных стратегии, и обе предполагают использование скриптов.

Первая стратегия основана на использовании проблемно-ориентированного интерфейса программирования приложений (API). API – это высокоуровневые интерфейсы базы данных, которые предоставляют HTML код. Используя API, исследователь не обязан иметь дело с HTML (предположительно засорённым), вместо этого он может получить данные в виде ссылок. Публично открытые API, как правило, является общедоступными, но не везде. Touchgraph, Inc. выпустила программы, которые работают с API трёх основных сайтов: Amazon, Google и Facebook. Однако Touchgraph представляет только визуализацию, а не данные как таковые. Недавно Digg.com предоставил API, хотя настоящий анализ был произведен до этого события.

Исследователь может скрэпить страницу непосредственно, не прибегая к использованию API (как показано в этом примере). Для этого нужно сохранить HTML-страницу и извлечь из неё связи. Преимущество скрэпинга заключается в том, что исследователь может собрать дополнительные данные о страницах, которые могли бы быть полезны как признаки или как объяснительные переменные; кроме того, этот метод применим к любой HTML-странице (исключением являются Flash-страницы).

Для этого исследования было выбрано 910 наиболее влиятельных пользователей digg.com (диггеров) по состоянию на 27 февраля 2007 года. Критерий выборки: каждый из пользователей имел семь или более новостей, достигавших главной страницы. Чтобы получить доступ к странице со списком друзей этих пользователей, нужно пройти по ссылке: http://digg.com/users/[никнейм]/friends/list. Страница со списком друзей показывает связи, идущие от пользователя. Чтобы получить доступ к связям, идущим к пользователю, нужно пройти по ссылке: http://digg.com/users/[никнейм]/friends/befriended. Это – фрейм выборки, с его помощью мы можем создать цельную сеть 910 пользователей. Однако чтобы создать цельную сеть, пригодную для анализа, нам придётся построить сеть, которая выходит на шаг за пределы этих связей. Кроме того, список из 910 диггеров – это не все пользователи Digg.com. Этот список может быть использован в качестве упражнения по созданию метода, который позволит сравнить ядро Digg-а с корневыми сообществами схожих новостных сайтов, таких как Delicious, Stumbleupon, Slashdot и Reddit.

Чтобы создать простой список контактов, исследователь может посчитать друзей, размещённых на отдельных страницах; однако, это весьма утомительное занятие, к тому же такой метод не исключает ошибок. На самом деле, чтобы собрать страницы, имеет смысл использовать язык программирования. Сначала нужно будет собрать информацию, потом «спарсить», после чего сохранить как данные. Обратимся для этого, например, к языку Python. Этот язык также называют «исполняемый псевдокод» из-за ясности и краткости этого языка программирования. Но есть и другие полезные языки, применяемые для решения этой задачи: JavaScript, PHP, Perl, и Java. Представленные ниже отрывки иллюстрируют некоторые из основных процессов сбора и обработки данных.
Если у вас есть список имен (в данном случае это имена 910-ти диггеров), они могут быть сохранены в списке:
Тогда можно организовать цикл по списку и просчитать каждую страницу поочередно:

namelist = [«top1″,»top2″,»top910»]

site = "http://www.digg.com/users/"
for i in namelist:
p = urlretrieve(site + i + "/friends/list")
pagetext = p.read()

Просматривая исходный код страницы, исследователь может заметить, что всем именам друзей предшествуют символы: ahref=»users/. Таким образом можно сканировать страницу с помощью «регулярного выражения», которое начинается с упомянутого текста и заканчивается символами «>. Так будет выглядеть регулярное выражение, записанное на Python:

fregex = re.compile("href="/users/w*")
flist = fregex.findall(pagetext)

После чистки списка до состояния, в котором он не будет содержать имя эго (пользователя) (что также делается с помощью «регулярных выражений»), и после удаления специальных символов (href, и т.д.), исследователь получит список друзей. Сеть похожа на звезду с пользователем в центре и его связями, исходящими от него как лучи. Чтобы собрать связи между этими друзьями, нужно повторить вышеупомянутый процесс и проверить страницу каждого друга, это позволит увидеть, кто у кого в друзьях. Если Вы рассматриваете всех друзей пользователя как единый набор данных, то нужно взять пересечение этого набора и набора данных каждого из друзей второго уровня.

fset = set(friendlist)
for i in friendlist:

#find all friends on i’s page.
#Just like above — call it flist_2

fset_2 = set(flist_2)
flinks.append((i, intersection(fset, fset_2))
Весь код вы можете запросить у автора.

Единственная проблема в создании подобной базы данных – минимизация обращений к серверу. Решив эту проблему, исследователь сможет не так сильно грузить канал и минимизировать временные затраты, а также удалить лишние данные. Для сетевых данных это особенно важно, поскольку многие люди имеют одинаковых друзей, а мы все же нуждаемся только в одной копии страницы друга.

Исследовательская стратегия должна быть направлена на составление списка друзей (или связей), который будет очищен и внесён в базу. База – это объект особого типа, который содержит только один образец любой строки. Таким образом, если пользователь-l и пользователь-2 имеют друга «userfriend», когда оба их списка друзей будут заноситься в базу, в базе появится только один «userfriend», второй «userfriend» будет удалён.

3
На рисунке 3 изображены 477 топ-пользователей Digg.com.
Примечание: эта сеть – наибольшая компонента из всех диггеров, попавших в выборку (пользователи, у которых 7 или более новостей, опубликованных на главной странице). Радиальная укладка используется для того, чтобы подчеркнуть значимость наиболее успешного топ-диггера «digitalgopher», 1007 новостей которого было опубликовано на главной странице.

Анализ данных

Как уже отмечалось выше, один из первых шагов в аналитике – визуализация. Из 910 топовых пользователей 477 человек входят в гигантскую компоненту, 433 – не входят. Из 433 пользователей менее 20 имеют хоть какую-нибудь связь с другими топовыми пользователями. На рисунке 3 изображена гигантская компонента. Размер узла пропорционален логарифму количества статей пользователя, которые он сделал популярными, тогда как цвет отражает показатель «центральности по посредничеству». На рисунке изображены только симметричные связи. Эта диаграмма построена так, чтобы пользователь Digg digitalgopher был расположен в центре. Каждое кольцо вокруг digitalgopher – следующий шаг от него.

Можно заметить, что, во-первых, вокруг альфа-диггера высокая плотность связей, во-вторых, пользователи в центре более крупные (то есть у них больше популярных новостей) чем те, что на периферии. В-третьих, digitalgopher и многие из его друзей – пользователи с высоким показателем центральности по посредничеству. Это предполагает что они связующие узлы между различными частями Digg-сообщества .

Как отмечалось ранее, существует гипотеза, что на сайте digg.com доминируют несколько пользователей. Под этим простым скрывается сразу несколько сетевых вопросов. Сколько этих доминирующих пользователей? Существуют ли коалиции/подгруппы? Поддерживают ли друг друга наиболее влиятельные пользователи? Имеет ли какое-нибудь значение процесс добавления в друзья?

Используя очищенные данные, собранные на Digg, я построил несколько иерархических регрессиональных моделей. В качестве зависимых переменных были выбраны: число новостей, ставших популярными и их доля в общем числе публикаций пользователя. Само по себе количество новостей распределено по степенному закону (см. рис. 4). Это потребовало приведения зависимости к линейному виду преобразования переменной, как показано во вставке рисунка 4. Поскольку модели делают прогноз относительно к преобразованной переменной, коэффициенты трудно интерпретировать. Большое внимание следует обратить на относительную величину коэффициентов и уровни значимости, а не на числовые значения.

Модели включают восемь переменных, шесть из которых касаются сетевых характеристик, тогда как другие две – метрики социального участия.

• Сетевые характеристики считались и на основе сети топовых 910 пользователей, и на основе всей сети пользователей Digg:
— Количество симметрических связей (взаимной дружбы);
— Количество подписчиков пользователя (поддерживающих, но не имеющих взаимной поддержки; связи от другого к эго);
— Количество отслеживаемых пользователей (невзаимные друзья; связи от эго к другому);
• Данные профиля:
— Количество опубликованных новостей;
— Количество просмотренных страниц.
В таблице показаны вложенные модели для определения количества популярных новостей. Только данные о количестве и типе друзей объясняют почти 40% вариаций количества популярных новостей (R2); более того, влияние количества друзей нелинейно.

5
Рисунок 4. Распределение пользователей по количеству новостей, ставших популярными. Примечание: не вставке показано расширение после преобразования в линейный вид.

6
Коэффициенты линейной регрессиональной модели по методу нелинейных квадратов. Целевые переменные: количество новостей, ставших популярными и их доля. Независимые переменные: сетевые характеристики (количество исходящих, входящих и взаимных связей).

Подписчики из топ-диггероов, имеют больший вес, нежели обычные пользователи. Более того, наличие большого числа невзаимных друзей производит отрицательный эффект. Также можно отметить некоторую странность в отношении взаимных друзей. Количество этих пользователей практически не влияет на количество и долю популярных новостей. Хотя их социограммы видно, что топ-диггеры связаны друг с другом. То есть, возможно, речь идёт о косвенном влиянии: когда друзья ретранслируют новости, которые потом проходят по их сетям.

В двух правых столбцах показаны модели для доли популярных новостей среди всех, опубликованных автором. Существенно более низкое значение коэффициента детерминации R2 говорит о том, что, несмотря на зависимость успеха той или иной новости от социальной структуры, наличие друзей не гарантирует размещение новости на главной странице. Следует проявить внимательность и наблюдательность в интерпретации этих моделей. Пользователи Digg увеличивают количество и друзей, и новостей, эта модель не даёт представления о том, что причиной чего является. Для лонгитьюдного исследования эта сеть должна была бы быть изучена в различные моменты времени (задача, выходящая за рамки данной статьи).

Чем онлайн-сети отличаются от офлайн-сетей?

Интернет одно время воспринимался как «киберпространство», где виртуальные сообщества связаны «информационными магистралями». То есть он считался сферой деятельности, отделённой от повседневной жизни. С упрощением использования и адаптацией пользователей интернет стал частью повседневной жизни (Howard, 2004; Wellman and Haythornthwaite, 2002). Он стал столь же обычным, сколь и вездесущим явлением. Как показывают многочисленные исследования, большинство близких онлайн-связей человека – это также офлайн-связи (Boase et al., 2006; Baym et al, 2004; Wellman et al., 2006). Из этого следует, что явную границу между онлайн- и офлайн-сетями провести достаточно тяжело.

Мы привыкли думать об электронных данных как о базе ясных объективных связей, например, «послал, по крайней мере, пять сообщений», тогда как узлы офлайн-сетей, связаны расплывчатыми субъективными отношениями, например, «близки друг другу». Однако есть несколько соображений, которые осложняют это простое разделение. Выбор порога для онлайн-связей – субъективная задача: хотя электронные сети и представляют определенные метрики, они не позволяют понять, какие из этих метрик являются наиболее релевантными.

Точные поведенческие метрики используются и вне интернета: использовав данные четырех различных сфер деятельности (операторы любительского радио, академические исследователи, родственники, офисные сотрудники), Бернард написал хорошую сравнительную статью о различии между поведенческими и когнитивными сетями задолго до появления интернета (Bernard et al. 1979).

Где проходит граница медиа: правда ли, что коммуникация по телефону менее связана с электронной почтой, нежели коммуникация посредством сервиса мгновенного обмена сообщениями? На практике люди для повседневной коммуникации и поддержки своих связей используют множество медиа. Онлайн-медиа являются частью этой архитектуры. Итак, мы разобрали все обозначенные пункты, но есть еще несколько аспектов электронных сетей, обнаружение которых может стать трудной, или даже невыполнимой задачей, если некорректно определить область исследования.

Рамки исследования: интернет представляет собой огромную базу данных. Как указывает Ньюмэн (Newman et al. 2006), это обстоятельство породило сетевой анализ принципиально нового масштаба, работу с базами данных, которые зачастую содержат миллионы узлов и рёбер. Кроме того, на уровне личной сети, можно собрать немало собственных связей, включая настолько слабые связи, которые невозможно было бы вспомнить, если б они не понадобились для исследования.

Пассивный метод сбора данных: в большинстве случаев автоматизированный сбор данных или незаконен или невыполним, а построение сети, например, этнографическими средствами, предполагает очень большую работу. В отличие от этого, найти своих друзей в Живом журнале является несложной задачей, но найти друзей каждого из этих друзей будет уже труднее.

Новые структуры и поведения: онлайн-сети зачастую иллюстрируют действительно захватывающие примеры человеческих взаимодействий, некоторые из которых не имеют прямых аналогий за рамками медиа среды. Начиная с идеи личного рейтинга «топ-8» друзей в MySpace, до присутствия закоренелых альтруистов в телеконференциях (Smith, 1999) и троллинга в почтовых рассылках (Herring et al., 2002). Онлайн-сети – это легитимная и по-своему захватывающая область исследования.
В завершении этого раздела хотелось бы отметить, что в целом между онлайн и офлайн-сетями нет существенных различий. Некоторые из них имеют схожие свойства, вне зависимости от того, представляют ли они собой наблюдаемые поведенческие данные или субъективные структуры. Основное различие – это область сбора данных, которая может быть столь массивной, что это приведёт к её сокращению и введению пороговых значений.

Программное обеспечение для сетевого анализа

Найти социальные сети в интернете нетрудно, однако собрать их данные и представить в удобной форме – это всё ещё нетривиальная задача. Часто данные предоставляются программами в одной форме, а для сетевого анализа они должны быть импортированы в аналитическую программу в другой форме. То есть исследователь должен быть готов к соответствующей обработке данных. Чтобы привести в порядок данные, он может использовать необходимый язык программирования. Сегодня наиболее популярные языки, подходящие для решения этой задачи: Python, Perl, и Java. К тому же есть несколько специально созданных для этих целей программ, которые уже сегодня доступны исследователям. Так, исследовательская группа The Community Technologies Group из Microsoft разработала следующие инструменты анализа: SNARF – почтовый помощник, который строит реляционную базу данных электронной почты и представляет её пользователю новаторским способом. NetScan – инструмент, позволяющий запрашивать информацию у архива телеконференций Usenet . Кроме того, специалистами Университета Карнеги-Меллон разработана программа The CASOS, которая предлагает набор инструментов для сбора и анализа сетевых данных . Зелвол (Thelwall, 2004) представил нам не только введение в анализ цитирования, но и интернет-краулер SocSciBot, который может строить модели множественных связей между интернет-сайтами. Аналогично у Шренка (Schrenk, 2007) есть множество примеров онлан-спайдеров, и даже практическая часть для решения большинства комплексных спайдеринговых задач. Для технически искушённого исследователя существует много программ, которые могут помочь в визуализации и анализе, включая Viszter и Prefuse (boyd and Heer, 2006) , JUNG (O’Madadhain et al., 2003) , и SNA for R (Butts, 2005) . В дополнение к ним можно привести стандартный пакет программ для анализа социальных сетей, UCInet (Borgatti et al., 2006) и Pajek (Nooy и др., 2005) . Наконец, для обработки онлайн-данных существуют различные спайдеры, которые легко найти с помощью поисковых систем. Исследователь может не использовать ни одну из предложенных программ, а вместо этого собирать крупноформатные таблицы вручную. Однако это может отнять больше времени, чем изучение языка, который парсит почтовые данные или ссылки интернет-страниц.

Заключение

Анализ социальных сетей представляет собой эффективную систему для обнаружения и интерпретации общественных онлайн-связей. Они исследуются с помощью ряда аналитических техник, в пределах от простых показателей центральности до изощрённого многоуровневого моделирования. Если раньше сбор данных был задачей, требующей больших усилий и временных затрат, то сегодня электронные сети эту задачу несколько упростили. Это произошло за счёт использования пассивных данных (таких как веб-страницы и данные почтовых хранилищ). Но увеличение эффективности привело к ограничению сбора данных. Из чего возникла необходимость определения критериев значимости отношений. Решение этих проблем требует терпения и технических навыков высокого уровня, в частности, владения языками программирования или соответствующими программами и в некоторой степени опыта работы методом проб и ошибок. В результате, как видно из вышеупомянутых исследований, мы сможем понять устройство интерсубъективных структур, которые влияют на онлайн-присутствие пользователей и онлайн-жизнь в целом. Кроме того, данные методы применимы вне онлайн-пространства, именно поэтому в названии статьи используется уточнение «в интернете». Исследуемые структуры с одной стороны воспроизводят повседневную жизнь, а с другой стороны являются её частью. То есть аналитика – это не просто пристальный взгляд на другой берег, это более кристаллизованное представление о «здесь и сейчас».

Благодарности

Автор благодарит за финансовую поддержку исследовательское агентство SSHRC, а также исследовательскую программу Бел Лаборатории (BUL) и сотрудников корпорации Интел. Кроме того, автора поддержали следующие редакторы: Нэйджел Филдинг, Рэй Ли, Гранк Бланк, а также Дана Бойд, Даниэль Фишер, Марк Смит, Тэд Велсер и Бари Вэлман. Более ранние версии этой статьи были опубликованы в Руководстве по методам онлайн-исследований (Лондон, март 2007) и в сборнике материалов конференции Сообщества и технологии (Ист-Лэнсинг, июнь 2007).

Данное исследование было опубликовано ранее в сборнике Sage Handbook of Online Research Methods, Thousand Oaks, CA: Sage. — 2008.

Перевод статьи осуществил и любезно предоставил кандидат философских наук Егор Лавренчук.

Литература:

Adamic, L., & Adar, E. (2005). How to search a social network. Social Networks, 27(3), 187–203.
Adamic, L., & Glance, N. (2005). The political blogosphere and the 2004 u.s. election: Divided they blog. Working Paper.
Adar, E. (2006). Guess: A language and interface for graph exploration. Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI 06).
Barabasi, A.-L. (2003). Linked. New York: The Penguin Group.
Barabasi, A.-L., & Albert, R. (1999). Emergence of scaling in random networks. Science, 286, 509–512.
Bausch, S., & Han, L. (2006). Social networking sites grow 47 percent, year over year, reaching 45 percent of web users, according to nielsen/netratings.
Baym, N. K., Zhang, Y. B., & Lin. (2004). Social interactions across media. New Media & Society, 6(3), 299–318.
Bearman, P., Moody, J., & Stovel, K. (2004, July). Chains of affection: The structure of adolescent romantic and sexual networks. American Journal of Sociology, 110(1), 44-91.
Bernard, H. R., Killworth, P. D., & Sailer, L. (1979). Informant accuracy in social network data iv: A comparison of clique-level structure in behavioral and cognitive network data. Social Networks, 2(3), 191–218.
Boase, J., Horrigan, J., Wellman, B., & Rainie, L. (2006). Pew report: The strength of internet ties. Washington, DC: Pew Internet and American Life Project.
Borgatti, S. P., Everett, M. G., & Freeman, L. C. (2006). Ucinet vi. Harvard, MA: Analytictech.
boyd, d. (2006). Friends, friendsters and top 8: Writing community into being on social network sites. First Monday, 11(12).
boyd, d., & Heer, J. (2006). Profiles as conversation: Networked identity performance on friendster. Kauai, HI: IEEE Computer Society.
Burt, R. (1984). Network items and the general social survey. Social Networks, 6(4), 293–339.
Burt, R. (1992). Structural holes: The structure of competition. Cambridge, MA: Harvard University Press.
Butts, C. T. (2005). Sna package: Tools for social network analysis. Irvine, CA: University of California Irvine.
Callon, M., & Law, J. (1997). After the individual in society: Lessons on collectivity from science, technology and society. Canadian Journal of Sociology-Cahiers Canadiens De Sociologie, 22(2), 165–182.
Carrington, P. J., Scott, J., & Wasserman, S. (Eds.). (2005). Models and methods in social network analysis. Cambridge, UK: Cambridge University Press.
Deleuze, G., & Guattari, F. (1987). A thousand plateaus. Minnesota, MN: University of Minnesota Press.
Emirbayer, M., & Mische, A. (1998). What is agency? American Journal of Sociology, 103(4), 962–1023.
Fischer, C. (1982). To dwell among friends. Chicago: University of Chicago Press.
Fisher, D. (2004). Social and temporal structures in everyday collaboration. Unpublished doctoral dissertation, University of California, Irvine, Irvine, CA. July 18, 2007 11 DRAFTREFERENCES
Fisher, D., Smith, M. A., & Welser, H. (2006). You are who you talk to: Detecting roles in usenet newsgroups.
Kauai, HI: IEEE. Freeman, L. C. (1979). Centrality in social networks conceptual clarification. Social Networks, 1(3), 215–239.
Freeman, L. C. (2004). The development of social network analysis: A study in the sociology of science. Vancouver, BC: Empirical Press.
Girvan, M., & Newman, M. E. J. (2002). Community structure in social and biological networks. Proceedings of the National Academy of Sciences, 99(12), 7821–7826.
Granovetter, M. (1973). The strength of weak ties. American Journal of Sociology, 78, 1360–1380.
Gupta, S., Anderson, R., & May, R. M. (1989). Networks of sexual contacts: Implications for the pattern of spread of hiv. AIDS, 3(12), 807–817.
Hargittai, E., Zehnder, S., & Gallo, J. (2006). Mapping the political blogosphere: An analysis of large-scale online political discussions.
Haythornthwaite, C. (2005). Social networks and internet connectivity effects. Information, Communication & Society, 8(2), 125–147.
Herring, S., Job-Sluder, K., Scheckler, R., & Barab, S. (2002). Searching for safety online: Managing ”trolling” in a feminist forum (Tech. Rep. No. 02-03). Bloomington, IN: Indiana University. CSI Working Paper.
Hogan, B., Carrasco, J., & Wellman, B. (2007). Visualizing personal networks: Working with participant aided sociograms. Field Methods, 19(2), 116-144.
Hogan, B., & Fisher, D. (2006). A scale for measuring email overload. Microsoft Research Technical Report, TR-2006-65, 1–3.
Howard, P. N. (2004). Embedded media: Who we know, what we know, and society online. In P. N. Howard & S. Jones (Eds.), Society online: The internet in context (pp. 1–27). Thousand Oaks, CA: Sage.
Koester, S., Glanz, J., & Baron, A. (2005, March). Drug sharing among heroin networks: Implications for hiv and hepatitis b and c prevention. AIDS and Behavior, 9(1), 27-39.
Kossinets, G. (2006, July). Effects of missing data in social networks. Social Networks, 28(3), 247-268.
Kossinets, G., & Watts, J., Duncan. (2006). Empirical analysis of an evolving social network. Science, 311(5757), 88–90.
Lin, N., Fu, Y.-c., & Hsung, R.-M. (2001). The position generator: Measurement techniques or investigations of social capital. In N. Lin, K. Cook, & R. S. Burt (Eds.), Social capital: Theory and research (pp. 57–81). New York: Aldine De Gruyter.
Loch, C. H., Tyler, J. R., & Lukose, R. (2003). Conversational structure in email and face-to-face communication. Working Paper.
McCarty, C. (2002). Structure in personal networks. Journal of Social Structure, 3.
McCarty, C., Killworth, P. D., Bernard, H. R., Johnsen, E. C., & Shelley, G. A. (2000). Comparing two methods for estimating network size. Human Organization, 60(1), 28–39.
McGrath, C., Blythe, J., & Krackhardt, d. (1997). The effect of spatial arrangement on judgements and errors in interpreting graphs. Social Networks, 19, 223–242.
McPherson, J. M., Smith-Lovin, L., & Brashears, M. (2006). Changes in core discussion networks over two decades. American Sociological Review, 71(3), 353–375.
McPherson, J. M., Smith-Lovin, L., & Cook, J. M. (2001). Birds of a feather: Homophily in social networks. Annual Review of Sociology, 27, 415–444.
Mizruchi, M. S. (1982). The corporate board network. Thousand Oaks, CA: Sage.
Moody, J., & White, D. R. (2003). Structural cohesion and embeddedness: A hierarchical concept of social groups. American Sociological Review, 68(1), 103–128.
Newman, M. E. J. (2003a). Mixing patterns in networks. Physical Review E, 67, 026126, 1–13.
Newman, M. E. J. (2003b). The structure and function of complex networks. SIAM Reviews, 45(2), 167–256.
Newman, M. E. J. (2006). Modularity and community structure in networks. Proceedings of the National Academy of Sciences, 103, 8577-8583.
Newman, M. E. J., Barabasi, A.-L., & Watts, D. (2006). The structure and dynamics of networks. Princeton, NJ: Princeton University Press.
Nooy, W. de, Mrvar, A., & Batagelj, V. (2005). Exploratory social network analysis with pajek. Cambridge, UK: Cambridge University Press.
O’Madadhain, J., Fisher, D., White, S., & Boey, Y. (2003). The jung (java universal network/graph) framework. Irvine, CA: UC Irvine.
Park, H. W. (2003). Hyperlink network analysis: A new method for the study of socail structure on the web. Connections, 25(1), 49–61.
Rogers, E. (1995). Diffusion of innovations, fourth edition. New York: Free Press.
Rothenberg, R. B. (1995). Commentary: Sampling in social networks. Connections, 18(1), 104-110.
Schrenk, M. (2007). Webbots, spiders, and screen scrapers. San Francisco, CA: No Starch Press.
Seidman, S. B., & Foster, B. L. (1978). A graph-theoretic generalization of the clique concept. Journal of Mathematical Sociology, 6, 139–154.
Smith, M. A. (1999). Invisible crowds in cyberspace: Mapping the social structure of usenet. In M. A. Smith & P. Kollock (Eds.), Communities in cyberspace (pp. 195–219). London: Routledge.
Thelwall, M. (2004). Link analysis: An information science approach. Amsterdam: Elsevier.
Travers, J., & Milgram, S. (1969). An experimental study of the small world problem. Sociometry, 32(4).
Van Der Gaag, M. P. J., & Snijders, T. A. B. (2005). The resource generator: Social capital quantification with concrete items. Social Networks, 27(1), 1–29.
Wallerstein, I. (1997). The modern world system: Capitalist agriculture and the origins of the european world economy in the sixteenth century. New York, NY: Academic Press.
July 18, 2007 12 DRAFTWasserman, S., & Pattison, P. E. (1996). Logit models and logistic regressions for social networks: I. an introduction to markov grahps and p*. Psychometrika, 61, 401-425.
Watts, D. (1999). Networks, dynamics, and the small-world phenomenon. American Journal of Sociology, 105(2), 493–527.
Watts, D. (2002). Six degrees: The science of a connected age. New York: W. W. Norton.
Wellman, B. (1979). The community question: The intimate networks of east yorkers. American Journal of Sociology, 84(5), 1201–1233.
Wellman, B. (1988). The community question re-evaluated. In M. P. Smith (Ed.), Power, community and the city (pp. 81–107). New Brunswick, NJ: Transaction.
Wellman, B., & Haythornthwaite, C. (Eds.). (2002). The internet in everyday life. Oxford: Blackwell.
Wellman, B., Hogan, B., Berg, K., Boase, J., Carrasco, J. A., Cote, R., et al. (2006). Connected lives: The project. In P. Purcell (Ed.), The networked neighborhood (pp. 161–216). London: Springer.
Wellman, B., Salaff, J., Dimatrova, D., Garton, L., Gulia, M., & Haythornthwaite, C. (1996). Computer networks as social networks: Collaborative work, telework, and virtual community. Annual Review of Sociology, 22, 213-238.
Whittiker, S., & Sidner, C. (1996). Email overload: exploring personal information management of email. ACM Press.

PhDin Sociology (Toronto), Research Fellow at the Oxford Internet Institute
Узнал сам? Поделись с друзьями!
  • Alexander Semeonov

    Несмотря на то, что для описания сущности анализа социальных сетей (Social Network Analysis, SNA) в он-лайн «социальных сетях» (в смысле Social Media) статья подобрана более чем адекватно, т.к. Bernie Hogan является одним из немногих исследователей, которые:
    а) обладают навыками по сбору, анализу и визуализации данных из «социальных сетей», б) имеют достаточный академический бэкграунд для постановки правильных исследовательских вопросов и грамотной интерпретации полученных результатов, качество её перевода не выдерживает никакой критики.

    Самое первое, что бросается в глаза — это написание фамилий ключевых авторов в данной области. Если в пользу различных вариантов транслитерации фамилий Barry Wellman и Duncan Watts ещё можно приводить доводы a la Ватсон/Уотсон и Гофман/Гоффман, и даже построить параллель между Albert-László Barabási и Imre Lacatos, перевод фамилии которого до сих пор вызывает споры среди философов/социологов науки, то причины, по которым эти варианты варьируются в рамках одного текста, представить довольно сложно. Так, Велман в начале становится Вэлманом под конец, Ваттс превращается в Вотса, а Барабаши трансформируется в Барабаси.

    Ещё больше смущает то, что автор «теперь уже классической» работы «Сила слабых связей» Mark Granovetter (кстати, номинированный за неё в этом году на Нобелевскую премию по экономике), оказался недостаточно «классичным», чтобы предстать в тексте в перевода под привычным всей просвещённой, пусть даже и с помощью поисковой системы Google, общественности фамилии Грановеттер.

    И уже совсем непостижимым является тот факт, что один из самых известных математиков 20-го века Paul Erdős вдруг спрятался за именем казахстанского боксёра и чемпион мира 2005 года Ердоса Усеновича Джанабергенова. Ведь даже Гуглу неизвестен ни один человек, по фамилии Эрдос. И если «глупой машине» это ещё простительно, то автору, занимающемуся переводом научных статей и изданию, публикующему подобные переводы — вряд ли.

    Дальше можно было бы порассуждать над спецификой перевода названий тех или иных метрик из SNA (пресловутой betweenness centrality) и теоретических тонкостях противопоставления сетевого и реляционного подходов в социологии, но боюсь, что в таком случае данный комментарий превысит по своему объёму саму статью как минимум раза в два. Поэтому для того, чтобы понять всю глубину проблемы, приведу лишь одно предложение авторского текста (третье с введения), выделив слова, явно упущенные или искажённые при переводе:

    «Social network analysis is a rapidly expanding interdisciplinary paradigm, much of which is taking place with online data».

    и: «Анализ социальных сетей — быстро развивающаяся междисциплинарная практика, которая основана на работе с данными онлайн-исследований».

    1) Парадигма != практика даже с точки зрения сайта Multitran;

    2) much of which = «большАя часть которой», вообще выпало при переводе;

    3) online data != данные онлайн-исследований, т.к. включает в себя значительно больший список источников данных.

    Таким образом, одно только данное предложение противоречит основному посылу статьи, а именно стремлению продемонстрировать то, что social network analysis:

    1) является не просто методом анализа данных, но и целой теоретико-методологической парадигмой;

    2) зародился гораздо раньше современных он-лайн «социальных сетей» и был лишь популяризирован в последние годы за счёт предоставляемых ими данных, а не основывается на них целиком и полностью;

    3) использует «естественные», «поведенческие» данные вместо традиционных результатов исследований.

    На мой взгляд, данный перевод нуждается в существенной доработке и публикация его в подобном виде была преждевременной и скорее навредила делу разъяснения и популяризации предмета, нежели поспособствовала этому.

  • Егор Лавренчук

    Александр, вы отыскали в моем переводе различия в написании
    между «Велман» и «Вэлман». Раскритиковали не транслитерированное написание Mark Granovetter. Раскритиковали использование термина «Практика» вместо «Парадигма». И утверждаете, что данный перевод «навредил делу разъяснения и популяризации предмета».
    Открыто вам заявляю: вы лицемер. Ищите ошибки в чужих переводах, пишете саркастичные комментарии, а сами ничего не переводите.

  • Alexander Semeonov

    Егор, я лишь выразил свои сомнения в вашем знакомстве с английским языком и предметом статьи. Но данный комментарий также вызывает у меня сомнения в вашем владении языком русским, т.к. слово «лицемер» означает не совсем то, в чём вы меня обвиняете.

    Несмотря на это, я готов сделать свой перевод текста по данной тематике, если редакция сайта согласится его опубликовать.

  • Егор Лавренчук

    Вы якобы радеете за популяризацию SNA в России. Однако
    это выражается не в новых переводах (которые будут лучше прежних), а в язвительной
    критике работы ваших коллег. Вот в чем я вас обвиняю.

  • Alexander Semeonov

    Егор, а что если я вам скажу, что популяризация SNA в России заключается не только в переводах?

    Есть же ещё и такие мелочи, как публикации статей в научных журналах, выступления на конференциях, научных и не очень, преподавание в вузах. В конце концов ведь можно хотя бы бложек вести и в «соц. сети» ссылочки постить.

    Вы знакомы с чем-то подобным, Егор? Это же не столь герметические вещи, как Эрдёш. Вам наверняка приходилось где-то сталкиваться. Как кандидату философских-то наук.

  • Petrov Vladimir

    Спасибо тебе большое за перевод.

    Опубликовано материалов
    03585
    Готовятся к публикации
    +28
    Самое читаемое за неделю
  • 1
    ПостНаука
    11 473
  • 2
    Гасан Гусейнов
    5 742
  • 3
    Марк Юсим
    2 947
  • 4
    Алексей Лебедев
    2 359
  • 5
    Алексей Муравьёв
    2 261
  • 6
    Михаил Соколов
    2 242
  • 7
    Андрей Цатурян
    2 058
  • Новое

  • NEW
    42
  • 1 910
  • 1 200
  • 1 293
  • 2 242
  • 11 473
  • 2 058
  • 2 027
  • 5 742