Перейти к содержанию

Визуализация Графа Социальной Сети


Рекомендуемые сообщения

Визуализация графа социальной сети

 

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.

 

В последние годы наблюдается стремительное увеличение влияния событий блогосферы на политические и социальные процессы в мире, в том числе, и на политическую жизнь нашей страны. Социальные сети являются площадкой активного обсуждения всех политических событий страны, формирующей общественное мнение, и, прежде всего, молодежи – тех, в чьих руках окажется судьба страны спустя 10-15 лет. Таким образом, все более очевидной становится необходимость разработки методик и алгоритмов исследования социальной коммуникации социальных медиа и особенностей их влияния на текущие политические события.

 

Исследование коммуникаций в социальных медиа проводилось в середине ноября 2011 года. В ходе исследования был проведен анализ октябрьских-ноябрьских дискуссий из Живого Журнала, касающихся предстоящих выборов в Государственную Думу 4 декабря.

В качестве платформы для апробирования методики мониторинга исследуемого сегмента социальных медиа была выбрана блог-платформа LiveJournal («Живой журнал»). Такой выбор обусловлен направленностью данной сети в первую очередь именно на ведение открытых публичных дискуссий: «Живой журнал» на сегодняшний день стал одной из основных площадок для «гражданской журналистики».

 

В процессе исследования было собрано более 1200 комментариев пользователей, количество ребер в ориентированном графе превысило 950. Период сбора информации – июль – ноябрь 2011 года.

 

Для анализа использовалась открытая программа Gephi, в которую был импортирован граф из предыдущей статьи.

Свойства вершин и ребер

 

 

 

http://habrastorage.org/storage2/c93/f09/a74/c93f09a741819d894834fa1a5466f363.png

Рисунок 1 – Граф после импорта

Промежуточность (betweenness) – число присутствия вершины в кратчайших путях между любыми другими вершинами. Проведенное исследование показало, что высокой степенью промежуточности обладает крайне небольшое количество узлов – всего 6 или около 0.5%. Это означает, что в политическом сегменте Рунета не наблюдается сложной разветвленной сети со множеством больших кластеров и сообществ. Как правило, пользователи-проводники информации имеют возможность передавать информацию, общаясь одновременно в 2-4 различных кругах политических мнений. При этом эти проводники информации не обладают большой влиятельностью на мнение сообществ, в которых состоят, поэтому затруднительно использовать их в информационных кампаниях в предвыборный период.

На рисунке представлен граф, в котором наибольшим размером и цветом теплых оттенков (зеленый, оранжевый и красный) выделены пользователи, обладающие наибольшей степенью промежуточности.

 

http://habrastorage.org/storage2/eb5/eb6/505/eb5eb6505a38eba0dc66cd2505bbe7fe.png

Рисунок 2 – Граф с выделенными вершинами с высокой степенью промежуточности

Распределение промежуточности в графе крайне неравномерное, большая часть вершин не обладает ей совсем.

 

http://habrastorage.org/storage2/729/e0a/6cb/729e0a6cbc0656df068b7d04afc214ec.png

Рисунок 3 – Граф с выделенными вершинами с высокой промежуточностью

В таблице, отсортированной по убыванию представлены конкретные никнеймы пользователей, обладающих соответствующей промежуточностью. Из достаточно известных людей можно отметить лидера – это В. Милов (v_milov), один из лидеров оппозиции.

 

http://habrastorage.org/storage2/e8a/b3f/323/e8ab3f323e1eb9c0c4795dd016019bab.png

Рисунок 4 – Пользователи с высокой промежуточностью

Центральность по собственному значению (eigenvector centrality) – рекурсивная характеристика важности вершины, получаемая из суммы важности связанных вершин. Исследование показало, что высокой центральность обладает А. Навальный, Г. Явлинский, С. Миронов, а из политических сообществ только ru_politics.

 

http://habrastorage.org/storage2/fce/dc1/e9a/fcedc1e9a85d34e85101658710915d0e.png

Рисунок 5 – Пользователи с высокой центральностью по собственному значению

 

 

Свойства скоплений

 

 

Степень кластеризации (транзитивности) – характеристика повышенной вероятности связи между вершинами A↔C, если A↔B и B↔C (друг моего друга – мой друг). Данная характеристика может указывать на то, что вершины, обладающие высокой степенью кластеризации комментируются людьми, которые их лично знают.

 

http://habrastorage.org/storage2/bfa/c26/979/bfac26979d080f22e3603dc6e075a086.png

Рисунок 6 – Количество «треугольников» в графе

 

Свойства сети

 

 

Диаметр – максимальный кратчайший путь между любыми двумя вершинами (между которыми такой путь возможно проложить).

d=min⁡max⁡ Lij

Формула 1 – Определение диаметра

Диаметр полученного графа равен 2, что говорит об отсутствии цепочек коммуникационных взаимодействий между пользователями.

Распределение степеней (degree distribution) – график зависимости степени вершины от всего количества таких вершин в графе. Степени для текущего исследования рассчитывались исходя из стоящих задач. Для определения авторитетных пользователей применяется метрика входящих степеней (in-degree). Если вершина обладает высокой входящей степенью, значит данного пользователя часто и много комментируют, что в свою очередь означает высокую степень интереса к нему со стороны сообщества. Как правило, такие пользователи являются лидерами мнений и проводниками новых идей, которые вызывают активные дискуссии в обществе. Исследование показало, что распределение входящих степеней подчиняется степенному закону и резко убывает с ростом числа комментаторов. Так, лидерами являются пользователи, набравшие 60, 30, 18, 15 комментариев по заданным ключевым словам.

 

http://habrastorage.org/storage2/7e6/de2/ef1/7e6de2ef160c3cc86089cd598e042dc5.png

Рисунок 7 – Пользователи с высокой входящей степенью

 

http://habrastorage.org/storage2/1d6/184/0ad/1d61840ad2c86a4bdadf65a1c8104125.png

Рисунок 8 – Распределение входящих степеней

Одним из наиболее ярких лидеров является А. Навальный.

 

http://habrastorage.org/storage2/ad5/b0b/442/ad5b0b442b840d92d6c5451b84052457.png

Рисунок 9 – Распределение входящих степеней

Анализ выходящей степени в графе показывает, что, как правило, люди комментирующие лидеров мнений сами являются лидерами по количеству комментариев.

 

http://habrastorage.org/storage2/38a/29e/61d/38a29e61de6352e8d778aaacd4e5d4e6.png

Рисунок 10 – Распределение входящих степеней

Среднее распределение степеней для всего графа равно 0,743, однако более интересна медиана, она находится в районе 2-4. Общее распределение степеней, как входящих, так и выходящих представлено на рисунке.

 

http://habrastorage.org/storage2/5c6/0d5/1ff/5c60d51ff10bc1b7131fba3e1a38ffbe.png

Рисунок 11 – Распределение входящих степеней

Взвешенная степень характеризует нормализованное распределение степеней в диапазоне от 1 до 100. Безоговорочными лидерами являются, А. Навальный, Г. Явлинский, сообщество ru_politics. Также в списке присутствуют экономист Хазин и движение Солидарность. Интересным результатом стало то, что в списке нет таких политиков и деятелей как Г. Зюганов, В. Жириновский, М. Прохоров что отчасти может объясняться тем, что основные дискуссии ведутся их сторонниками на других площадках, в частности официальных сайтах. Отсутствие Прохорова может объясняться также тем, что он теперь пишет не о политике, а сосредоточился как и раньше на бизнесе.

Также интересным результатом можно считать то, что в списке нет региональных политических сообществ, таких как politics_south (401 читатель) — Политика на Юге России, gorodgeroev_ru (281 читатель) — Политическая жизнь в Волгограде. Данные региональные сообщества, хотя и имеют читателей, не привлекают активных комментаторов. В сообществах ru_cprf КПРФ — политическая партия, ru_sps Союз правых сил, spravedliva_ru Справедливая Россия содержатся только тексты и перепосты, практически отсутствует политическая активность и дискуссии.

Основной вывод: как правило, активные дискуссии ведутся в журналах политических лидеров, но не в сообществах, которые оттого имеют несколько искусственный характер.

 

http://habrastorage.org/storage2/41c/940/f1d/41c940f1dd4da48900942b6cfcde44c4.png

Рисунок 12 – Лидеры по взвешенной степени

Ссылка на сообщение
Поделиться на другие сайты

Модулярность позволяет в структуре графа выявить сообщества или группы пользователей. В полученном графе можно выделить 4-6 небольших групп по выбранным ключевым словам.

 

http://habrastorage.org/storage2/771/c37/bff/771c37bff7cac9183e9e012dc7a6fbb8.png

Рисунок 13 – Группы в графе

 

http://habrastorage.org/storage2/a59/22f/d79/a5922fd7981ed5d8a4a3efd7635971b0.png

Рисунок 14 – Сообщество А. Навального

Размеры наиболее крупных групп варьируются от 10 до 35 пользователей, см. рис.

 

http://habrastorage.org/storage2/f08/c18/b44/f08c18b44e10ae5d0bf96577c803886c.png

Рисунок 15 – Распределение групп

 

http://habrastorage.org/storage2/891/0df/1d8/8910df1d8d0b0c43bca2e11087e83d73.png

Рисунок 16 – Класс модулярности

Кроме анализа структуры исследование позволяет сразу же ознакомиться с текстами записей пользователей-комментаторов. В таблице представлены ребра графа, каждому ребру соответствует заголовок и текст комментария. Это позволяет сразу проанализировать более точную тематику оставленных комментариев, оценить общую тональность сообщений.

 

http://habrastorage.org/storage2/5af/4ee/ef0/5af4eeef09fd7b0cba034546c9f7854f.png

Рисунок 17 – Вершины графа с текстами комментариев

 

Резюме: теперь, через год, когда мы знаем, как развивались события, видно, что подобное исследование с большое степенью точности может предсказывать реальную активность протестных лидеров на основании их активности в блогосфере.

Конечно, мы собрали немного данных, можно поспорить о репрезентативности выборки (собирались записи только по определенным запросам, созданным с помощью конструктора Яндекс поиска), нужно исследовать больше сетей, не только ЖЖ. Это в будущем.

 

Но уже сейчас наше исследование уникально в плане анализа графа, структуры сети. Насколько я знаю, исследования обычно строят графики вовлечённости, количественные характеристики (вроде кол-ва постов, кол-во на пользователя и т.п.), объем аудитории и др. Но никто не строит структуру графа, не просчитывает метрики, как это сделали мы. А ведь это позволяет в будущем отслеживать и динамику событий.

Ссылка на сообщение
Поделиться на другие сайты

Что дало это исследование?

Это смотря кому. Для кого то и возможность анализа - уже новость. Для когото методика интересна. Для кого то представляет интерес автор методики.

 

Или это просто так? Показать что соцсети в принципе поддаются анализу?

И это тоже.

Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.
Примечание: Ваш пост будет проверен модератором, прежде чем станет видимым.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

Загрузка...
×
×
  • Создать...