#DilmanoJN


Ontem a presidenta Dilma esteve presente no Jornal Nacional, para uma entrevista de 15 minutos, conforme vem sendo feito com os candidatos a presidência da República. Coloquei o Aécio que foi semana passada no último post. Agora o grafo da discussão em torno da hashtag #DilmanoJN. Coletei cerca de 9 mil tweets uma hora após a entrevista. Uma vez retirados tweets repetidos (spam) e afins, ficamos com 6010 tweets e 3016 contas únicas. Como o grafo do Aécio, o de Dilma também é bastante polarizado. Na imagem a seguir, as conexões em vermelho representam grupos apoiadores, cujos conjuntos de palavras mais utilizadas remetem ao apoio à reeleição da presidenta. Em azul, os grupos contrários, seja por manifestações críticas ou a favor de outros candidatos. Em cinza ficaram os grupos "neutros", onde não foi possível determinar um posicionamento claro. (Clique na imagem para ver em tamanho maior.)

dilmanojn.png

Na tagcloud a seguir, temos os principais termos utilizados pelo principal grupo de apoio (o maior). Há uma clara militância nesse sentido, com a hashtag #dilma13denovo, que foi largamente utilizada pelos grupos de apoio em conjunto com a hashtag #dilmanojn (que eu excluí da tagcloud justamente porque foi o termo de coleta de dados, então obviamente seria o mais citado). Também é interessante observar os elementos positivos associados nesta tagcloud. (Clique na imagem para ver em tamanho maior.)

g1dilma.png
Na tagcloud a seguir, peguei o principal grupo crítico. Vejam que os termos utilizados mudam, e que os candidatos concorrentes são bastante citados. Também há palavras mais críticas, como "foradilma. É importante ressaltar que houve também uma militância contrária à Dilma, que foi marcada pela hashtag #EuVouDeAécio, que subiu nos trending topics meio que junto com a #dilma13denovo. A questão é que o grupo crítico não usou a hashtag #dilmanojn, o que fez com que seus tweets não aparecessem nessa busca. Assim, as palavras usadas pelos grupos críticos são mais difusas e menos direcionadas nestes dados do que as do grupo de apoio, que aparecem mais organizadas.

g3dilma.png
A seguir, o grafo total das palavras mais citadas. Vemos um conjunto total mais positivo (porque, como vimos no grafo, há um conjunto maior e mais articulado de militância no sentido de construir conceitos positivos). Os comentários negativos são mais difusos (embora também tenha aparecido militância contrária, conforme vimos), pois se articularam em torno de uma hashtag que não analisei aqui.
dilmatudo.png
É importante notar a presença das militâncias na mídia social. Elas demarcam uma guerra discursiva agressiva que tem começa a ganhar força online porque tem mais visibilidade. É interessante também que essa guerra apareça com mais força no grafo de hoje, em detrimento daquele do Aécio que fiz semana passada. Faz sentido, uma vez que Dilma está em primeiro lugar nas pesquisas, que exista uma concentração de militância anti-Dilma dos opositores, bem como uma maior militância positiva. A ver no que isso tudo vai resultar.

A coleta e análise dos dados apresentados aqui foi feita com o NodeXL, as tagclouds gerados com o Wordle e as análises com scripts desenvolvidos pelo MIDIARS.

#AecionoJN


Ontem a noite o candidato a presidência da república Aécio Neves deu entrevista ao Jornal Nacional. A hashtag #aecionojn apareceu nos trending topics do Twitter e ficou ali por um bom tempo. Fiz uma coleta rápida, de cerca de 18 mil tweets, dos quais 12304 usuários únicos. O grafo abaixo mostra as interações entre esses usuários. Usei o NodeXL. Os grupos estão separados por clusters (Clauset-Newman-Moore). Isso significa que as contas que mais se citaram entre si tendem a ficar agrupadas no mesmo conjunto, abarcando um pouco melhor as conversações de determinados grupos. 

É interessante que claramente temos dois grandes grupos: O azul, que parece conter uma posição mais favorável ao candidato e sua participação no programa e um vermelho, que parece conter um grupo mais crítico ao mesmo.  Também há dois outros grupos (em verde e azul claro), mas a posição dos tweets é mais difusa nesses dois. (Clique na imagem para ver em tamanho maior.)

aecionnojn.png
Para tentar entender melhor essas participações no Twitter, fiz tagclouds das palavras mais frequentes em cada um dos principais grupos e no grafo como um todo. A seguir, a tagcloud do grafo como um todo. Vemos aqui as palavras mais frequentes (por tamanho) utilizadas nos tweets. O tamanho das palavras se dá por sua frequência e selecionei apenas as 100 mais frequentes, retirada a hashtag, que obviamente se apresenta em todos os tweets. (Clique na imagem para ver em tamanho maior.)
tagcloudgrupo1.png

A seguir, a tagcloud das palavras mais frequentes usadas no grupo 1 (o Grupo azul). (Clique na imagem para ver em tamanho maior.)

aeciogrupo12.png
E finalmente, a tagcloud das palavras mais frequentes no grupo 2 (o vermelho). (Clique na imagem para ver em tamanho maior.)
tagcloudgrupo2.png
É interessante observar que há frequencias diferentes de palavras diferentes em cada grupo, embora o conjunto e a oposição entre Aécio e Dilma apareça em todos. Também é interessante observar que grupos diferentes parecem participar entre si, mas pouco conjuntamente (o que seria esperado, com exceção de pontos de união em flames - discussões - e citações a um candidato ou outro). 

Disciplina nova no PPGL: ANÁLISE DE REDES SOCIAIS E DISCURSO NA INTERNET


Já faz algum tempo que venho explorando a questão de como extrair sentido de conjuntos de dados de "falas" dos sites de rede social, focando especificamente o discurso e misturando métodos. Venho narrando algumas dessas experiências aqui e em alguns artigos que estão aguardando publicação. Então, este semestre, como forma de tentar multiplicar essas idéias, propus uma disciplina nova para o PPG, focando especificamente esses estudos e a proposta foi aceita. Então a partir da 2a semana de agosto, começamos a disciplina de TÓPICOS ESPECIAIS EM ANÁLISE DE REDES SOCIAIS E DISCURSO NA INTERNET.

O objetivo é discutir elementos da linguística, de forma particular, conceitos de discurso, formação discursiva, conversação e etc. a partir de um foco de análise de redes. Também quero misturar um pouco de Análise de Conteúdo, Análise Textual e, é claro, métricas de Análise de Redes Sociais(ARS)  e Análise de Redes para tentar compreender melhor esses dados. Na prática, vamos explorar mineração de dados, limpeza de datasets, plotagem de grafos e métricas de ARS, bem como softwares de análise e o que se pode extrair de tudo isso (limitações). De quebra ainda, quero abordar os problemas éticos desses dados e como podemos lidar com isso.

Essa primeira turma é um pouco experimental, porque não sei se vamos conseguir trabalhar com muitos dados e a maioria dos alunos são os meus orientandos. No final do semestre, há a proposta de fazer a mesma disciplina em caráter concentrado, por uma semana em dezembro ou em março. Aqueles que se interessarem, em breve aviso a respeito. É possível também que saiam alguns cursos menores, em outras universidades, com esse mesmo foco. Aviso, caso isso se concretize.

BRASNAM 2014


Semana passada tive a oportunidade de participar da BRASNAM deste ano, que é o Brazilian Workshop on Social Network Analysis and Mining (Workshop Brasileiro de Análise de Redes Sociais e Mineração). O evento é primariamente promovido pelo pessoal da Computação e acontece junto com o CSBC (Congresso Nacional da Sociedade Brasileira de Computação). Foi uma experiência muito legal. Primeiro porque o evento tem a ambição de congregar todos os trabalhos sobre análise de redes online e mineração de forma multidisciplinar (ou seja, há pessoas de várias áreas participando) e segundo, porque há um foco muito forte da computação, com o qual eu particularmente me alinho bastante.

Duas áreas de grande destaque nos trabalhos: análise de sentimento (ou seja, extrair sentimento dos dados de Twitter, Facebook e etc.), que parece crescer e que se alinha um pouco com a abordagem discursiva que tenho falado aqui no blog de ARS; e também análise e predição de opinião (adorei os trabalhos focados nas eleições). Formas de mineração, limitações, problemas com interdisciplinariedade, identificação de influenciadores e redes de colaboração também foram temáticas recorrentes. Para quem quiser conferir, os trabalhos estão publicados aqui

Enfim, mesmo com a parca avaliação desse tipo de evento pelas áreas de Humanas, Sociais e Letras, vale a pena ouvir e tentar colaborações com as demais áreas. A seguir, eu e os organizadores, Li Weigang (UnB) e Fabrício Benevenuto (UFMG).
IMG_7432.JPG

Anúncio de Dunga como novo técnico da seleção


Coletei esses tweets com o NodeXL, entre 10 e 11 da manhã de hoje, após o anúncio oficial na coletiva da CBF. Foram 11.444 tweets e  8122 nós envolvidos (contas). Como o Node não se dá muito bem com grafos muito grandes, as imagens foram feitas no Gephi. Para a análise, usei uma série de programas diferentes, além dos já referidos.

O primeiro grafo é o das citações e menções. Ao centro, estão aqueles nós que mais repercutiram com sua cobertura do anúncio, ou seja, que foram mais citados e retuitados. São eles: @oledobrasil, @skysportsnews, @impedimento, @brasilglobetour, @cbf_futebol, @everaldomarques, @lbertozzi, @espn_interativo, @anterogreco.  Também temos os nós mais "ativistas", ou seja, aqueles que mais citaram outros nós, participando da conversação em torno do anúncio. São eles: @michaelmsb, @serpaiva, @brendonhilario, @robertagbetty. Também temos aqueles nós que repercurtiram mais em grupos diferentes, ou seja, que foram citados dentro de clusters diferentes de nós: @oledobrasil, @everaldomarques, @fernando_duarte, @cbf_futebol, @skysportsnews, @impedimento.  Na imagem, a seguir, mostro apenas o centro do grafo e seus principais clusters (marcados por vizinhança). Para ver o mapa com todos os nós, clique aqui (o mapa é grande e vai demorar um pouco a baixar).

dungacluster.png
(Clique na imagem para ver em tamanho maior.)

A seguir, temos o mapa com os discursos em torno do anúncio que estão estabelecidos nos tweets coletados. Os conceitos estão aproximados por co-ocorrência, ou seja, quanto mais tendem a ocorrer juntos, mais próximos e da mesma cor são as conexões. O tamanho de cada conceito está estabelecido pela frequência dele nos dados. Vejam que o material principal está focado na apresentação do novo treinador, com um conjunto de sentimentos positivos e negativos associados. O centro da discussão é a apresentação de Dunga pela cbf, como técnico da seleção do Brasil. 

dungatexto.png
(Clique na imagem para ver em tamanho maior).

Entre o maior número de ocorrências entre dois conceitos, Dunga é descrito como (1) novo (3000 ocorrências), (2) burro (485 ocorrências), (3) bom  (150 ocorrências), (4) gaúcho (30 ocorrências),  (5) retrocesso (19 ocorrências). Ou seja, ha uma maioria de sentimentos negativos associados ao nome do novo treinador. Entretanto, há também muitos desejos de boa sorte e bom trabalho, embora nao associados diretamente ao nome do treinador e com tanta força quanto os anteriores. Como boa parte da repercussão está associada à cobertura da imprensa (vide o grafo anterior), é possível que boa parte dos desejos positivos associados tenham sido fruto desta cobertura e que os comentários negativos sejam mais proeminentes no grande público (ou seja, nos usuários que comentaram a escolha de Dunga, não necessariamente citando a imprensa).  

#PresosdaCopa: Mapa dos discursos


Grafo dos discursos em torno da hashtag #presosdacopa Unidade em torno da crítica à prisões arbitrárias (cluster azul), críticas ao governo federal e às obras (verde) e citação dos principais patrocinadores da copa (vermelho). 20 mil tweets, coletados ontem, após o jogo do Brasil. Retirei propositalmente as @s, só deixei a da presidenta, por motivos óbvios.

Imagem em tamanho maior aqui -https://www.dropbox.com/s/osd6df8l8qzn0dz/presosdacopa.png . Clicando na imagem abaixo vc tb vê o grafo em tamanho maior.

presosdacopapeq.png

O Discurso em torno de Zuniga: Críticas e Xingamentos


Para o trabalho em torno da propagação da violência simbólica que atualmente desenvolvemos junto ao grupo e ao MIDIARS, coletamos os tweets relacionados ao jogador Zuniga, da Colombia, que atingiu o brasileiro Neymar no último jogo contra a Colombia, sábado, e o tirou da Copa.

O primeiro mapa aqui mostra um conjunto de 60 mil tweets, onde estão os principais conceitos associados aos tweets que foram coletados. Vejam que o nome do Neymar aparece igualmente ao do Zuniga. Há uma série de xingamentos em várias línguas ao redor e chamo a atenção para o "negro" que aparece a esquerda. O tamanho dos nós é proporcional a sua frequencia, a cor representa vizinhança (nós que tendem a aparecer mais juntos), bem como quanto mais ao centro, maior a ocorrencia em conjunto. As conexões representam a intensidade da co-ocorrência. (Clique para ver a imagem um pouco maior.)


zunigagrau.png
O segundo mapa apresenta os conceitos por centralidade eigenvector. Os nós estão distribuídos exatamente como no mapa anterior. Vejam como há concentração de mensagens de apoio também próximas aos xingamentos, que nascem provavelmente como resposta aos últimos (e por isso estão interconectadas). Relevante observar que os xingamentos não estão restritos a mensagens em Português. 

stronglyconnected.png
Último item, os principais assuntos que estão nestes dados, que permitem que a gente veja melhor quais conjuntos de palavras mais apareceram juntas. Clique para ver em tamanho maior. 
zuniga2.png
Último mapa, desta vez de apenas 40 mil tweets, c/ o mapa dos tweets por localização (apenas dos geolocalizados).
zuniga_tweets_geolocation.png

#Compós2014: Quem falou e o que falou no Twitter


Aconteceu nos últimos dias o Encontro da Compós em Belém (PA). Gabriela Zago apresentou nosso trabalho (meu, dela e do Marco Bastos) chamado "Quem retuíta quem? Papéis de ativistas, celebridades e imprensa nos #ProtestosBR" no GT de Cibercultura, mais um artigo resultante do trabalho conjunto nos dados dos protestos de Junho. Eu e o Marco não pudemos ir, mas acompanhamos de perto a discussão. 

Este ano, teve bem pouca participação do pessoal do evento no Twitter, provavelmente porque a Internet não estava muito boa. Ainda assim, coletei alguns dados via hashtag #compos2014 e fiz alguns mapas. São cerca de 200 tweets apenas. 

compos2014.png
(Clique na imagem para ver em tamanho maior.)

O primeiro acima mostra a participação dos poucos nós no Twitter. Está dividido por grupos (clusters) por cortes e por recortes.  Quanto mais central o nó em cada grupo, mais ele citou e foi citado. Aliás, as conexões mostram justamente, as citações. Como há um grupo bem grande de retweets, citação não significa necessariamente que a @ participou do evento, cobrindo ou comentando. Nós com maior indegree (mais foram citados por outros nós): @compos2014, @gabizago, @andrelemos, @herdeirodocaos, @ufpa_oficial, @fatimaregis, @sibonei. Nós com maior outdegree (mais citaram outros nós): @gabizago, @divabelem, @raquelrecuero, @herdeirodocaos, @ronaldohenn. 

GTs mais citados: #gtciber (21 citações) e GTJornalismo (14 citações, mas apenas "jornalismo" tem 15). 

O mapa a seguir mostra as co-ocorrências de termos nos tweets (apenas co-ocorrências maiores que 20). Vejam como os GTs de Jornalismo e Cibercultura dominam o debate, possivelmente porque tinham mais membros tuitando a respeito.

compos2.png
(Clique para ver a imagem em tamanho maior.)

No grafo dá para ter uma idéia dos assuntos que mais rolaram nos GTs e do que mais foi comentado. Cores significam vizinhança, ou seja, palavras que tenderam a aparecer mais juntas (como grupo). Tamanho do nó é a frequência individual de cada palavra. Espessura da conexão indica força (vezes em que o par apareceu mais associado).http://encontro2014.compos.org.br/

Usei: NodeXL, Gephi, Textometrica.