Перейти к содержанию

Визуализация Графа Социальной Сети


Рекомендуемые сообщения

Визуализация графа социальной сети

 

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.

 

В последние годы наблюдается стремительное увеличение влияния событий блогосферы на политические и социальные процессы в мире, в том числе, и на политическую жизнь нашей страны. Социальные сети являются площадкой активного обсуждения всех политических событий страны, формирующей общественное мнение, и, прежде всего, молодежи – тех, в чьих руках окажется судьба страны спустя 10-15 лет. Таким образом, все более очевидной становится необходимость разработки методик и алгоритмов исследования социальной коммуникации социальных медиа и особенностей их влияния на текущие политические события.

 

Исследование коммуникаций в социальных медиа проводилось в середине ноября 2011 года. В ходе исследования был проведен анализ октябрьских-ноябрьских дискуссий из Живого Журнала, касающихся предстоящих выборов в Государственную Думу 4 декабря.

В качестве платформы для апробирования методики мониторинга исследуемого сегмента социальных медиа была выбрана блог-платформа LiveJournal («Живой журнал»). Такой выбор обусловлен направленностью данной сети в первую очередь именно на ведение открытых публичных дискуссий: «Живой журнал» на сегодняшний день стал одной из основных площадок для «гражданской журналистики».

 

В процессе исследования было собрано более 1200 комментариев пользователей, количество ребер в ориентированном графе превысило 950. Период сбора информации – июль – ноябрь 2011 года.

 

Для анализа использовалась открытая программа Gephi, в которую был импортирован граф из предыдущей статьи.

Свойства вершин и ребер

 

 

 

http://habrastorage.org/storage2/c93/f09/a74/c93f09a741819d894834fa1a5466f363.png

Рисунок 1 – Граф после импорта

Промежуточность (betweenness) – число присутствия вершины в кратчайших путях между любыми другими вершинами. Проведенное исследование показало, что высокой степенью промежуточности обладает крайне небольшое количество узлов – всего 6 или около 0.5%. Это означает, что в политическом сегменте Рунета не наблюдается сложной разветвленной сети со множеством больших кластеров и сообществ. Как правило, пользователи-проводники информации имеют возможность передавать информацию, общаясь одновременно в 2-4 различных кругах политических мнений. При этом эти проводники информации не обладают большой влиятельностью на мнение сообществ, в которых состоят, поэтому затруднительно использовать их в информационных кампаниях в предвыборный период.

На рисунке представлен граф, в котором наибольшим размером и цветом теплых оттенков (зеленый, оранжевый и красный) выделены пользователи, обладающие наибольшей степенью промежуточности.

 

http://habrastorage.org/storage2/eb5/eb6/505/eb5eb6505a38eba0dc66cd2505bbe7fe.png

Рисунок 2 – Граф с выделенными вершинами с высокой степенью промежуточности

Распределение промежуточности в графе крайне неравномерное, большая часть вершин не обладает ей совсем.

 

http://habrastorage.org/storage2/729/e0a/6cb/729e0a6cbc0656df068b7d04afc214ec.png

Рисунок 3 – Граф с выделенными вершинами с высокой промежуточностью

В таблице, отсортированной по убыванию представлены конкретные никнеймы пользователей, обладающих соответствующей промежуточностью. Из достаточно известных людей можно отметить лидера – это В. Милов (v_milov), один из лидеров оппозиции.

 

http://habrastorage.org/storage2/e8a/b3f/323/e8ab3f323e1eb9c0c4795dd016019bab.png

Рисунок 4 – Пользователи с высокой промежуточностью

Центральность по собственному значению (eigenvector centrality) – рекурсивная характеристика важности вершины, получаемая из суммы важности связанных вершин. Исследование показало, что высокой центральность обладает А. Навальный, Г. Явлинский, С. Миронов, а из политических сообществ только ru_politics.

 

http://habrastorage.org/storage2/fce/dc1/e9a/fcedc1e9a85d34e85101658710915d0e.png

Рисунок 5 – Пользователи с высокой центральностью по собственному значению

 

 

Свойства скоплений

 

 

Степень кластеризации (транзитивности) – характеристика повышенной вероятности связи между вершинами A↔C, если A↔B и B↔C (друг моего друга – мой друг). Данная характеристика может указывать на то, что вершины, обладающие высокой степенью кластеризации комментируются людьми, которые их лично знают.

 

http://habrastorage.org/storage2/bfa/c26/979/bfac26979d080f22e3603dc6e075a086.png

Рисунок 6 – Количество «треугольников» в графе

 

Свойства сети

 

 

Диаметр – максимальный кратчайший путь между любыми двумя вершинами (между которыми такой путь возможно проложить).

d=min⁡max⁡ Lij

Формула 1 – Определение диаметра

Диаметр полученного графа равен 2, что говорит об отсутствии цепочек коммуникационных взаимодействий между пользователями.

Распределение степеней (degree distribution) – график зависимости степени вершины от всего количества таких вершин в графе. Степени для текущего исследования рассчитывались исходя из стоящих задач. Для определения авторитетных пользователей применяется метрика входящих степеней (in-degree). Если вершина обладает высокой входящей степенью, значит данного пользователя часто и много комментируют, что в свою очередь означает высокую степень интереса к нему со стороны сообщества. Как правило, такие пользователи являются лидерами мнений и проводниками новых идей, которые вызывают активные дискуссии в обществе. Исследование показало, что распределение входящих степеней подчиняется степенному закону и резко убывает с ростом числа комментаторов. Так, лидерами являются пользователи, набравшие 60, 30, 18, 15 комментариев по заданным ключевым словам.

 

http://habrastorage.org/storage2/7e6/de2/ef1/7e6de2ef160c3cc86089cd598e042dc5.png

Рисунок 7 – Пользователи с высокой входящей степенью

 

http://habrastorage.org/storage2/1d6/184/0ad/1d61840ad2c86a4bdadf65a1c8104125.png

Рисунок 8 – Распределение входящих степеней

Одним из наиболее ярких лидеров является А. Навальный.

 

http://habrastorage.org/storage2/ad5/b0b/442/ad5b0b442b840d92d6c5451b84052457.png

Рисунок 9 – Распределение входящих степеней

Анализ выходящей степени в графе показывает, что, как правило, люди комментирующие лидеров мнений сами являются лидерами по количеству комментариев.

 

http://habrastorage.org/storage2/38a/29e/61d/38a29e61de6352e8d778aaacd4e5d4e6.png

Рисунок 10 – Распределение входящих степеней

Среднее распределение степеней для всего графа равно 0,743, однако более интересна медиана, она находится в районе 2-4. Общее распределение степеней, как входящих, так и выходящих представлено на рисунке.

 

http://habrastorage.org/storage2/5c6/0d5/1ff/5c60d51ff10bc1b7131fba3e1a38ffbe.png

Рисунок 11 – Распределение входящих степеней

Взвешенная степень характеризует нормализованное распределение степеней в диапазоне от 1 до 100. Безоговорочными лидерами являются, А. Навальный, Г. Явлинский, сообщество ru_politics. Также в списке присутствуют экономист Хазин и движение Солидарность. Интересным результатом стало то, что в списке нет таких политиков и деятелей как Г. Зюганов, В. Жириновский, М. Прохоров что отчасти может объясняться тем, что основные дискуссии ведутся их сторонниками на других площадках, в частности официальных сайтах. Отсутствие Прохорова может объясняться также тем, что он теперь пишет не о политике, а сосредоточился как и раньше на бизнесе.

Также интересным результатом можно считать то, что в списке нет региональных политических сообществ, таких как politics_south (401 читатель) — Политика на Юге России, gorodgeroev_ru (281 читатель) — Политическая жизнь в Волгограде. Данные региональные сообщества, хотя и имеют читателей, не привлекают активных комментаторов. В сообществах ru_cprf КПРФ — политическая партия, ru_sps Союз правых сил, spravedliva_ru Справедливая Россия содержатся только тексты и перепосты, практически отсутствует политическая активность и дискуссии.

Основной вывод: как правило, активные дискуссии ведутся в журналах политических лидеров, но не в сообществах, которые оттого имеют несколько искусственный характер.

 

http://habrastorage.org/storage2/41c/940/f1d/41c940f1dd4da48900942b6cfcde44c4.png

Рисунок 12 – Лидеры по взвешенной степени

Ссылка на комментарий
Поделиться на другие сайты

Модулярность позволяет в структуре графа выявить сообщества или группы пользователей. В полученном графе можно выделить 4-6 небольших групп по выбранным ключевым словам.

 

http://habrastorage.org/storage2/771/c37/bff/771c37bff7cac9183e9e012dc7a6fbb8.png

Рисунок 13 – Группы в графе

 

http://habrastorage.org/storage2/a59/22f/d79/a5922fd7981ed5d8a4a3efd7635971b0.png

Рисунок 14 – Сообщество А. Навального

Размеры наиболее крупных групп варьируются от 10 до 35 пользователей, см. рис.

 

http://habrastorage.org/storage2/f08/c18/b44/f08c18b44e10ae5d0bf96577c803886c.png

Рисунок 15 – Распределение групп

 

http://habrastorage.org/storage2/891/0df/1d8/8910df1d8d0b0c43bca2e11087e83d73.png

Рисунок 16 – Класс модулярности

Кроме анализа структуры исследование позволяет сразу же ознакомиться с текстами записей пользователей-комментаторов. В таблице представлены ребра графа, каждому ребру соответствует заголовок и текст комментария. Это позволяет сразу проанализировать более точную тематику оставленных комментариев, оценить общую тональность сообщений.

 

http://habrastorage.org/storage2/5af/4ee/ef0/5af4eeef09fd7b0cba034546c9f7854f.png

Рисунок 17 – Вершины графа с текстами комментариев

 

Резюме: теперь, через год, когда мы знаем, как развивались события, видно, что подобное исследование с большое степенью точности может предсказывать реальную активность протестных лидеров на основании их активности в блогосфере.

Конечно, мы собрали немного данных, можно поспорить о репрезентативности выборки (собирались записи только по определенным запросам, созданным с помощью конструктора Яндекс поиска), нужно исследовать больше сетей, не только ЖЖ. Это в будущем.

 

Но уже сейчас наше исследование уникально в плане анализа графа, структуры сети. Насколько я знаю, исследования обычно строят графики вовлечённости, количественные характеристики (вроде кол-ва постов, кол-во на пользователя и т.п.), объем аудитории и др. Но никто не строит структуру графа, не просчитывает метрики, как это сделали мы. А ведь это позволяет в будущем отслеживать и динамику событий.

Ссылка на комментарий
Поделиться на другие сайты

Что дало это исследование?

Это смотря кому. Для кого то и возможность анализа - уже новость. Для когото методика интересна. Для кого то представляет интерес автор методики.

 

Или это просто так? Показать что соцсети в принципе поддаются анализу?

И это тоже.

Ссылка на комментарий
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти
×
×
  • Создать...