Debate da Band: Algumas Redes no Twitter


Estou ainda analisando e vendo o que se pode perceber nos dados do primeiro debate. Coletei uns 80 mil tweets com várias hashtags. Aqui vou mostrar dois mapas, do final do primeiro e do terceiro bloco, ambos com cerca de 20 mil tweets. Vemos, no grafo, os nós que citaram as contas oficiais dos candidatos. Colori os candidatos para que se veja melhor. Há muitas citações únicas, com vários grupos em torno dos candidatos (eu chamo de pedaços de brócolis- são contas que só citaram aquele candidato, mais relacionadas à militância). Ao centro, aqueles que citaram mais de um candidato. E na periferia, aqueles que falaram do debate usando a hashtag, mas não citaram as contas oficiais (a maioria),  Os grafos abaixo foram feitos a partir da hashtag #debatedaband e ao final dos blocos em questão. As conexões são citações, retweets e menções. Não vou mencionar os demais usuários que também foram citadas, exceto se relevantes p/ o comentário.

Primeiro bloco: (20 mil tweets, 8857 contas)

Nós mais citados (maior indegree): @dilmabr (1250), @jeanwyllys_real (446), @silva_marina (338), @diImabr (a bolada) (306), @aecioneves (144). 

Nós com maior centralidade betweenneess (mais citados por diferentes grupos - nessa medida estou tentando tirar a militância): @dilmabr, @jeanwyllys_real, @silva_marina (em quarto), @diImabr (a bolada), @aecioneves (em décimo).

A rede a seguir mostra a posição na rede dos candidatos pelas conversações no primeiro bloco do debate (não estamos, neste momento, avaliando a qualidade das citações, apenas sua existência). Essa rede marca também se quem falou do candidato A também falou do B, por exemplo. Quanto mais interconectada a rede de um candidato à dos demais, maior o número de pessoas que falou de ambos. É relevante observar que apenas um pequeno grupo (notadamente mídia e quem narrou o debate) faz esse trabalho, situando-se mais ao centro do grafo. (Clique na imagem para ver em tamanho maior)

bloco1debate2.png
É interessante, neste mapa, observar as militâncias muitas vezes como "torcidas" (há blocos de apoio - os brócolis) para cada candidato. Há maior coordenação da militância da Dilma e menor das dos demais candidatos em torno das citações. Além disso, a Dilma é a mais citada também pelos demais, até mesmo pelas falas no primeiro bloco. Curiosamente, o @jeanwyllys_real foi muito mais citado que a candidata do PSOL pela conta oficial. Marina desponta também com muitas citações (muitas críticas também). Luciana está mais ao centro do grafo, como Fidelix, porque são candidatos que foram mais citados por grupos diferentes.

Terceiro bloco: 19 mil tweets, 14373 nós

Mais citados: @diImabr (a bolada) (851), @silva_marina (668). Depois vários usuários e em 7o, @aecioneves (323) e em 9o, @queremosaecio (227).

Os mais citados por grupos diferentes (ou seja, nessa medida estou tentando tirar a militância): @diImabr (a bolada), @silva_marina, @aécioneves em quarto, @dilmabr em nono.

bloco2debate.png
O mapa da rede continua bastante semelhante. Vejam que a Luciana Genro vai mais para o meio do grafo, ou seja, começa a ser citada por mais grupos diferentes, bem como o Eduardo Jorge. Dilma, Marina e Aécio também apresentam grupos que falam apenas deles (como no primeiro bloco), mas com mais ênfase aqui, onde reduz a polaridade Dilma-Marina do primeiro grafo. Há várias contas de apoiadores sendo citadas junto com a do Aécio que começam a aparecer. E junto à Dilma, tem as citações da Dilma Bolada, que neste bloco foi a conta mais citada. Finalmente, as citações à Marina crescem bastante e, principalmente, dentro de diferentes grupos. Há um conjunto mais fluído de contas que citaram mais de um candidato (portanto, mais torcida), por isso há um maior afastamento do centro (menor clusterização) do grafo.

Depois vou ver se consigo olhar o resto dos dados. P/ essa análise, usei o NodeXL. :-)

A estreia de Peter Capaldi no #DoctorWho


De sexta a noite até hoje ao meio dia coletei dados (tweets) relacionados à estreia da nova temporada da série inglesa "Doctor Who" e do ator Peter Capaldi no papel de doctor. Eu ainda não vi o episódio (sem spoilers, por favor), mas pelos comentários gerais, fiquei bem entusiasmada. A seguir, o mapa dos discursos a partir da hashtag "#doctorwho" (que por algum motivo, é sempre a favorita dos whovians, deixando "#drwho", a escolha mais óbvia, em segundo lugar), com 68.586 tweets. Já que o Marco Toledo Bastos sempre reclama dos meus grafos de bolinhas, fiz um de tags.  Tamanho das tags indica frequência da palavra (ou conceito), força da conexão por espessura, proximidade por co-ocorrência, bem como conexão. Como sempre, cliquem nas imagens para ver em tamanho maior.

doctorwhopeq.png

Vejam que há muitos termos positivos associados à tag, o que me surpreendeu, dado que quando mapeei a escolha do Capaldi como novo doctor, tínhamos muita polêmica. Ao que parece, os fãs realmente gostaram muito do episódio. Vemos, logo a seguir, uma imagem do cluster marcado por centralidade betweenneess, ou seja, pelas palavras/conceitos que aparecem em mais tweets diferentes entre si (para retirar um pouco a questão dos retweets/spam de um pequeno grupo que podem alterar o resultado). Vejam que continuamos com posições altamente positivas. (Destaque para o "love" escondido embaixo do "doctor who". ) 

doctorwhocluster.png

Também graças a um script do Marco, tenho um mapa dos tweets por localização. É interessante para mostrar onde a série parece "ecoar" mais e onde se falou do novo episódio. Vejam que há um foco grande na Europa e no UK, como esperado, mas também uma grande popularização nos EUA.

doctorwho_tweets_geolocation.png

Fiz algumas buscas específicas por "Capaldi" também, para tentar capturar dados mais focados na atuação dele. A seguir, 49334 tweets com a palavra "Capaldi" e o que eu extraí desses tweets (nos mesmos parâmetros das redes anteriores). Vejam que também os termos são muito elogiosos. 

capaldinovo.png

A seguir, a rede marcada pela mesma medida de centralidade anterior, onde se pode perceber melhor os termos utilizados para qualificar o ator.

capaldiclusterbetwenneess.png
De novo, por geolocalização a seguir, vemos de onde saíram os tweets que comentaram a atuação. De novo, forte presença da Europa, EUA e, na América do Sul, do Brasil. 

Capaldi_tweets_geolocation.png
De posse desse spoiler, fiquei entusiasmadíssima para assistir o novo episódio. Agora vamos ver o que vou achar. :-)

#DilmanoJN


Ontem a presidenta Dilma esteve presente no Jornal Nacional, para uma entrevista de 15 minutos, conforme vem sendo feito com os candidatos a presidência da República. Coloquei o Aécio que foi semana passada no último post. Agora o grafo da discussão em torno da hashtag #DilmanoJN. Coletei cerca de 9 mil tweets uma hora após a entrevista. Uma vez retirados tweets repetidos (spam) e afins, ficamos com 6010 tweets e 3016 contas únicas. Como o grafo do Aécio, o de Dilma também é bastante polarizado. Na imagem a seguir, as conexões em vermelho representam grupos apoiadores, cujos conjuntos de palavras mais utilizadas remetem ao apoio à reeleição da presidenta. Em azul, os grupos contrários, seja por manifestações críticas ou a favor de outros candidatos. Em cinza ficaram os grupos "neutros", onde não foi possível determinar um posicionamento claro. (Clique na imagem para ver em tamanho maior.)

dilmanojn.png

Na tagcloud a seguir, temos os principais termos utilizados pelo principal grupo de apoio (o maior). Há uma clara militância nesse sentido, com a hashtag #dilma13denovo, que foi largamente utilizada pelos grupos de apoio em conjunto com a hashtag #dilmanojn (que eu excluí da tagcloud justamente porque foi o termo de coleta de dados, então obviamente seria o mais citado). Também é interessante observar os elementos positivos associados nesta tagcloud. (Clique na imagem para ver em tamanho maior.)

g1dilma.png
Na tagcloud a seguir, peguei o principal grupo crítico. Vejam que os termos utilizados mudam, e que os candidatos concorrentes são bastante citados. Também há palavras mais críticas, como "foradilma. É importante ressaltar que houve também uma militância contrária à Dilma, que foi marcada pela hashtag #EuVouDeAécio, que subiu nos trending topics meio que junto com a #dilma13denovo. A questão é que o grupo crítico não usou a hashtag #dilmanojn, o que fez com que seus tweets não aparecessem nessa busca. Assim, as palavras usadas pelos grupos críticos são mais difusas e menos direcionadas nestes dados do que as do grupo de apoio, que aparecem mais organizadas.

g3dilma.png
A seguir, o grafo total das palavras mais citadas. Vemos um conjunto total mais positivo (porque, como vimos no grafo, há um conjunto maior e mais articulado de militância no sentido de construir conceitos positivos). Os comentários negativos são mais difusos (embora também tenha aparecido militância contrária, conforme vimos), pois se articularam em torno de uma hashtag que não analisei aqui.
dilmatudo.png
É importante notar a presença das militâncias na mídia social. Elas demarcam uma guerra discursiva agressiva que tem começa a ganhar força online porque tem mais visibilidade. É interessante também que essa guerra apareça com mais força no grafo de hoje, em detrimento daquele do Aécio que fiz semana passada. Faz sentido, uma vez que Dilma está em primeiro lugar nas pesquisas, que exista uma concentração de militância anti-Dilma dos opositores, bem como uma maior militância positiva. A ver no que isso tudo vai resultar.

A coleta e análise dos dados apresentados aqui foi feita com o NodeXL, as tagclouds gerados com o Wordle e as análises com scripts desenvolvidos pelo MIDIARS.

#AecionoJN


Ontem a noite o candidato a presidência da república Aécio Neves deu entrevista ao Jornal Nacional. A hashtag #aecionojn apareceu nos trending topics do Twitter e ficou ali por um bom tempo. Fiz uma coleta rápida, de cerca de 18 mil tweets, dos quais 12304 usuários únicos. O grafo abaixo mostra as interações entre esses usuários. Usei o NodeXL. Os grupos estão separados por clusters (Clauset-Newman-Moore). Isso significa que as contas que mais se citaram entre si tendem a ficar agrupadas no mesmo conjunto, abarcando um pouco melhor as conversações de determinados grupos. 

É interessante que claramente temos dois grandes grupos: O azul, que parece conter uma posição mais favorável ao candidato e sua participação no programa e um vermelho, que parece conter um grupo mais crítico ao mesmo.  Também há dois outros grupos (em verde e azul claro), mas a posição dos tweets é mais difusa nesses dois. (Clique na imagem para ver em tamanho maior.)

aecionnojn.png
Para tentar entender melhor essas participações no Twitter, fiz tagclouds das palavras mais frequentes em cada um dos principais grupos e no grafo como um todo. A seguir, a tagcloud do grafo como um todo. Vemos aqui as palavras mais frequentes (por tamanho) utilizadas nos tweets. O tamanho das palavras se dá por sua frequência e selecionei apenas as 100 mais frequentes, retirada a hashtag, que obviamente se apresenta em todos os tweets. (Clique na imagem para ver em tamanho maior.)
tagcloudgrupo1.png

A seguir, a tagcloud das palavras mais frequentes usadas no grupo 1 (o Grupo azul). (Clique na imagem para ver em tamanho maior.)

aeciogrupo12.png
E finalmente, a tagcloud das palavras mais frequentes no grupo 2 (o vermelho). (Clique na imagem para ver em tamanho maior.)
tagcloudgrupo2.png
É interessante observar que há frequencias diferentes de palavras diferentes em cada grupo, embora o conjunto e a oposição entre Aécio e Dilma apareça em todos. Também é interessante observar que grupos diferentes parecem participar entre si, mas pouco conjuntamente (o que seria esperado, com exceção de pontos de união em flames - discussões - e citações a um candidato ou outro). 

Disciplina nova no PPGL: ANÁLISE DE REDES SOCIAIS E DISCURSO NA INTERNET


Já faz algum tempo que venho explorando a questão de como extrair sentido de conjuntos de dados de "falas" dos sites de rede social, focando especificamente o discurso e misturando métodos. Venho narrando algumas dessas experiências aqui e em alguns artigos que estão aguardando publicação. Então, este semestre, como forma de tentar multiplicar essas idéias, propus uma disciplina nova para o PPG, focando especificamente esses estudos e a proposta foi aceita. Então a partir da 2a semana de agosto, começamos a disciplina de TÓPICOS ESPECIAIS EM ANÁLISE DE REDES SOCIAIS E DISCURSO NA INTERNET.

O objetivo é discutir elementos da linguística, de forma particular, conceitos de discurso, formação discursiva, conversação e etc. a partir de um foco de análise de redes. Também quero misturar um pouco de Análise de Conteúdo, Análise Textual e, é claro, métricas de Análise de Redes Sociais(ARS)  e Análise de Redes para tentar compreender melhor esses dados. Na prática, vamos explorar mineração de dados, limpeza de datasets, plotagem de grafos e métricas de ARS, bem como softwares de análise e o que se pode extrair de tudo isso (limitações). De quebra ainda, quero abordar os problemas éticos desses dados e como podemos lidar com isso.

Essa primeira turma é um pouco experimental, porque não sei se vamos conseguir trabalhar com muitos dados e a maioria dos alunos são os meus orientandos. No final do semestre, há a proposta de fazer a mesma disciplina em caráter concentrado, por uma semana em dezembro ou em março. Aqueles que se interessarem, em breve aviso a respeito. É possível também que saiam alguns cursos menores, em outras universidades, com esse mesmo foco. Aviso, caso isso se concretize.

BRASNAM 2014


Semana passada tive a oportunidade de participar da BRASNAM deste ano, que é o Brazilian Workshop on Social Network Analysis and Mining (Workshop Brasileiro de Análise de Redes Sociais e Mineração). O evento é primariamente promovido pelo pessoal da Computação e acontece junto com o CSBC (Congresso Nacional da Sociedade Brasileira de Computação). Foi uma experiência muito legal. Primeiro porque o evento tem a ambição de congregar todos os trabalhos sobre análise de redes online e mineração de forma multidisciplinar (ou seja, há pessoas de várias áreas participando) e segundo, porque há um foco muito forte da computação, com o qual eu particularmente me alinho bastante.

Duas áreas de grande destaque nos trabalhos: análise de sentimento (ou seja, extrair sentimento dos dados de Twitter, Facebook e etc.), que parece crescer e que se alinha um pouco com a abordagem discursiva que tenho falado aqui no blog de ARS; e também análise e predição de opinião (adorei os trabalhos focados nas eleições). Formas de mineração, limitações, problemas com interdisciplinariedade, identificação de influenciadores e redes de colaboração também foram temáticas recorrentes. Para quem quiser conferir, os trabalhos estão publicados aqui

Enfim, mesmo com a parca avaliação desse tipo de evento pelas áreas de Humanas, Sociais e Letras, vale a pena ouvir e tentar colaborações com as demais áreas. A seguir, eu e os organizadores, Li Weigang (UnB) e Fabrício Benevenuto (UFMG).
IMG_7432.JPG

Anúncio de Dunga como novo técnico da seleção


Coletei esses tweets com o NodeXL, entre 10 e 11 da manhã de hoje, após o anúncio oficial na coletiva da CBF. Foram 11.444 tweets e  8122 nós envolvidos (contas). Como o Node não se dá muito bem com grafos muito grandes, as imagens foram feitas no Gephi. Para a análise, usei uma série de programas diferentes, além dos já referidos.

O primeiro grafo é o das citações e menções. Ao centro, estão aqueles nós que mais repercutiram com sua cobertura do anúncio, ou seja, que foram mais citados e retuitados. São eles: @oledobrasil, @skysportsnews, @impedimento, @brasilglobetour, @cbf_futebol, @everaldomarques, @lbertozzi, @espn_interativo, @anterogreco.  Também temos os nós mais "ativistas", ou seja, aqueles que mais citaram outros nós, participando da conversação em torno do anúncio. São eles: @michaelmsb, @serpaiva, @brendonhilario, @robertagbetty. Também temos aqueles nós que repercurtiram mais em grupos diferentes, ou seja, que foram citados dentro de clusters diferentes de nós: @oledobrasil, @everaldomarques, @fernando_duarte, @cbf_futebol, @skysportsnews, @impedimento.  Na imagem, a seguir, mostro apenas o centro do grafo e seus principais clusters (marcados por vizinhança). Para ver o mapa com todos os nós, clique aqui (o mapa é grande e vai demorar um pouco a baixar).

dungacluster.png
(Clique na imagem para ver em tamanho maior.)

A seguir, temos o mapa com os discursos em torno do anúncio que estão estabelecidos nos tweets coletados. Os conceitos estão aproximados por co-ocorrência, ou seja, quanto mais tendem a ocorrer juntos, mais próximos e da mesma cor são as conexões. O tamanho de cada conceito está estabelecido pela frequência dele nos dados. Vejam que o material principal está focado na apresentação do novo treinador, com um conjunto de sentimentos positivos e negativos associados. O centro da discussão é a apresentação de Dunga pela cbf, como técnico da seleção do Brasil. 

dungatexto.png
(Clique na imagem para ver em tamanho maior).

Entre o maior número de ocorrências entre dois conceitos, Dunga é descrito como (1) novo (3000 ocorrências), (2) burro (485 ocorrências), (3) bom  (150 ocorrências), (4) gaúcho (30 ocorrências),  (5) retrocesso (19 ocorrências). Ou seja, ha uma maioria de sentimentos negativos associados ao nome do novo treinador. Entretanto, há também muitos desejos de boa sorte e bom trabalho, embora nao associados diretamente ao nome do treinador e com tanta força quanto os anteriores. Como boa parte da repercussão está associada à cobertura da imprensa (vide o grafo anterior), é possível que boa parte dos desejos positivos associados tenham sido fruto desta cobertura e que os comentários negativos sejam mais proeminentes no grande público (ou seja, nos usuários que comentaram a escolha de Dunga, não necessariamente citando a imprensa).  

#PresosdaCopa: Mapa dos discursos


Grafo dos discursos em torno da hashtag #presosdacopa Unidade em torno da crítica à prisões arbitrárias (cluster azul), críticas ao governo federal e às obras (verde) e citação dos principais patrocinadores da copa (vermelho). 20 mil tweets, coletados ontem, após o jogo do Brasil. Retirei propositalmente as @s, só deixei a da presidenta, por motivos óbvios.

Imagem em tamanho maior aqui -https://www.dropbox.com/s/osd6df8l8qzn0dz/presosdacopa.png . Clicando na imagem abaixo vc tb vê o grafo em tamanho maior.

presosdacopapeq.png