#PokemonGoVemProBR: Uma rede ativista


Hoje de manhã estava crawleando algumas coisas e peguei a rede da hashtag #PokemonGoVemProBR, que estava em primeiro lugar nos TTs do Twitter. Na hora, cerca de 34 mil tweets (em torno de 10:30 da manhã). Capturei em torno de 25 mil. O que é interessante, nesta rede, é que ela tem todas as características das redes de ativismo que vimos online em vários momentos (incluindo eleições): Redes densas, com graus de entrada e saída bastante elevados (indicando usuários que repetem várias vezes a hashtag ao longo do dia - média de 4,98 no grau de entrada e 3 no de saída). Além disso, é uma rede com poucos grupos e bastante clusterizada (vide o cluster central, bastante interconectado). 

grafointeiroindegreemod.png
Rede delimitada por módulos (cores) e grau de entrada (tamanho dos nós). Clique para ver a imagem em tamanho maior.



nucleografoindegreemod.png
Esses dados indicam que há uma nuvem de nós retuitando e citando outros nós (notadamente @nianticlabs e @pokemongoapp, vide grafo a seguir), tentando fazer a mensagem chegar ao destino. Esse cluster central de pessoas que se citam entre si e referenciam os tweets umas das outras é bastante semelhante ao que temos (o Midiars) observando com redes ativistas. E é relevante observar que as estratégias para ganhar visibilidade são muito semelhantes, o que vai mostrando como o Twitter é um espaço de "voz" por excelência, onde os usuários utilizam a rede como forma de mobilização, seja em torno de um game, seja em torno de um protesto.

NODEXL para estudos de Mídia Social: Vantagens e Desvantagens


iie2011.pngComo quem acompanha o blog aqui deve saber, eu sou fã do NodeXL para trabalhar com análise de redes e mídia social, especialmente para quem está começando. Como todo mundo me pergunta isso toda hora, aqui vai um inventário rápido das vantagens e desvantagens da ferramenta do meu ponto de vista. O NodeXL costumava ter uma única versão, gratuita. Entretanto, por uma série de questões de suporte, o time acabou tendo que criar uma versão simples gratuita e quase todas as ferramentas legais ficaram disponíveis apenas na versão PRO. Ainda assim, considero que é uma ferramenta com várias vantagens. 


Vantagens:

  • Como o Node tem uma interface criada em cima do Excel, é bem mais familiar ao usuário de Windows e muitas das coisas que você precisa ficam claramente demarcadas. Basicamente, o Node cria uma aba a mais em cima do Excel, que onde ficam os seus comandos e permite a interação com os comandos do Excel, o que facilita bastante a vida e reduz muito a curva de aprendizado da ferramenta.
  • Outra boa vantagem do Node é a possibilidade de análise semântica conjunta com a análise de redes, ou seja, o programa permite que você analise também o conteúdo do material que coletou, e tem vários filtros que podem ajudar a ter uma visão mais contextual dos dados. Essa vantagem, entretanto, só está disponível na versão PRO.
  • A principal vantagem do NodeXL, na minha opinião, é que ele tem um crawler (parte do programa que faz a busca) embutido, que serve para Facebook, Youtube, Twitter e etc. A coleta de dados é uma das maiores dificuldades de quem trabalha com dados de mídia social e o fato do Node fazer essa coleta é uma grande mão na roda. Entretanto, é preciso atentar para alguns fatos:
          • No Twitter, o Node não acessa o streaming, mas a outra API (REST), o que faz com que sua busca só funcione para trás (para o passado). Ou seja, quando você está crawleando alguma coisa que está acontecendo agora, o Node vai coletando conforme o Twitter arquiva o material (do momento onde se iniciou a busca para trás) e não daquele momento em diante. Isso faz com que ele seja útil para coletar coisas durante ou após o acontecido e não coisas no futuro. É importante lembrar que o Twitter limita o acesso aos dados desta API(se não me engano, são 30 dias ou 20 mil tweets, o que vier primeiro) e limita em geral o acesso a mais ou menos 1% do volume de dados global . Portanto, se você quer coletar algo que aconteceu há muito tempo, não vai conseguir com o NodeXL. A possibilidade de coletar o passado é bem complicada e, em geral, a melhor opção neste caso é comprar os dados de alguma empresa (há várias que vendem dados, como a DataSift).
          • No Facebook, a possibilidade de coleta é limitadíssima pela própria ferramenta. Atualmente se consegue coletar automaticamente pouquíssima coisa, notadamente apenas dados de páginas e grupos abertos ou alguns dados de sua própria conta. Ainda assim, também há limites para volume de dados (embora não explicitamente, eu sempre encontro o limite quando crawleio grandes volumes).
  • Outra coisa bem útil é o modo como o NodeXL permite visualizar grupos (separados no grafo), que é muito bom para quem quer focar esse tipo de coisa na sua análise. Diria que essa é uma das features mais legais da ferramenta. Outros modos de visualização, com imagens e etc. também são bem legais.
  • Finalmente, o NodeXL também tem uma boa ferramenta de visualização dos grafos (não é um Gephi, mas ajuda bastante quem está iniciando e é bem simples de usar) e o fato da visualização e dos dados ficarem lado a lado na interface ajuda muito a compreender o que se está vendo, mesmo conhecendo pouco de análise de redes. Gosto muito do fato de poder ver os dados no grafo (você pode selecionar na imagem e ver no material dos dados o que está sendo representado ali).
export-nodexl.png
  • A grande vantagem da ferramenta é ter coleta e análise no mesmo lugar, concentrando uma série de coisas que, de outra sorte, você teria que usar vários softwares para conseguir resolver.

Desvantagens:

  • Como o Node roda em cima do Excel, ele é adequado para uma quantidade limitada de dados. Se você vai trabalhar com 80, 100 mil tweets, por exemplo, já vai ter problemas com o Node. O ideal para trabalhar com ele é ficar abaixo deste limite. Há estratégias para aumentar um pouquinho a memória do Excel, mas crashs serão frequentes.
  • O Node é capaz de auxiliar em análises bem complexas, mas a ferramenta de visualização roda com poucos algoritmos, não sendo comparável a outras ferramentas de visualização, como o Gephi. Mas considerando que você pode exportar os dados e utilizar outra ferramenta de visualização quando desejar, acho que é uma desvantagem bem pequena.
  • A ferramenta de análise semântica, embora sendo melhorada, também é limitada. Ela permite vários insights, mas não permite que você faça, por exemplo, uma análise de conteúdo automatizada com base em parâmetros escolhidos.
  • Limitações do crawler: Para ter acesso completo, sóna versão PRO.
  • Não funciona no OS X.

Portanto, o NodeXL é adequado para estudos de caso pontuais e focados, com questões com foco estrutural (por exemplo, relacionadas aos formatos da rede) na mídia social. É bastante fácil de usar se você já tem algumas noções básicas de análise de redes e compreender o que está visualizando e a análise que está criando.

Hello: O orkut 2.0


hello.pngSemana passada conversei com a reportagem da BBC Brasil sobre o Hello, novo site de rede social que está sendo lançado pelo Orkut, o mesmo cara que fez a popular ferramenta do Google (orkut). Com base na discussão com o repórter, pensei bastante sobre a ferramenta e decidi escrever algumas considerações aqui, levando em conta a minha experiência com o orkut (ferramenta). (Trabalhei pesquisando o orkut para o Google por vários anos e tive oportunidade de conversar bastante com o próprio criador sobre a criatura -Para fins de discussão, vou usar sempre Orkut - com maiúscula- como a pessoa; e orkut, com minúscula, como a ferramenta.) 

Um orkut melhorado
Fiquei com a impressão de que o Hello é, em parte, uma atualização da idéia central do orkut. A ferramenta, que nasceu como "Six Degrees" enquando ele trabalhava no Google, tinha como estrutura central a reunião de pessoas por interesses e hobbies. A idéia central das comunidades era servir como um espaço para pessoas com interesses semelhantes se encontrarem. Claro, essa idéia foi rapidamente modificada quando a ferramenta foi apropriada pelos usuários (algo que o próprio Orkut se ressentia um pouco) e virou um espaço de manifestação identitária (quem eu sou, do que eu gosto), de jogos/brincadeiras (quem, dentre os early users do orkut, não lembra da "Como ou não como" ou outras comunidades semelhantes?) e etc. Com o crescimento do site, a idéia de reunir pessoas com interesses semelhantes passou a ser secundária, existindo não mais como plano principal. Ao mesmo tempo, outras apropriações foram modificando mais o uso imaginado da ferramenta, como a gamificação das avaliações (no início do orkut, as pessoas eram avaliadas pelos amigos como "cool" (legal, que era representado por cubinhos de gelo), "sexy" (corações), e tinha "fãs" e etc. A brincadeira foi rapidamente apropriada pelos usuários e "bombada", servindo como fator motivador para convidar todo mundo que conheciam, com a promessa e a troca de que fossem bem avaliados por esses usuários. Originalmente, tinha até um top 10 de usuários em cada categoria. Claro,isso fez também com que as pessoas passassem a adicionar todo mundo (inclusive quem não conheciam) aos seus perfis, na tentativa de entrar na famigerada lista dos 10 mais e de se destacarem entre os amigos. Isso também contrariava a ideia original do Orkut, que era muito mais próxima de que as pessoas se apresentassem "verdadeiramente" e mostrassem realmente seus amigos.

Todo o projeto do orkut era muito interessante e revolucionário para a época, no universo dos sites de rede social. Além de um design infinitamente superior que seus concorrentes (na época, o Friendster principalmente) e fácil de ser compreendido pelos newbies, o orkut inovava permitindo que se navegasse pela rede social dos amigos, vendo quem era amigo de quem. As idéias centrais da ferramenta eram ótimas e, justamente por isso, ela explodiu rapidamente (o crescimento mais rápido no Brasil, entretanto, inibiu o crescimento em outros países, mas isso é assunto para outro post). Mas o crescimento do orkut também significou usos novos, apropriações inesperadas e para funções que não eram necessariamente aquelas pensadas pelo criador. E é fácil ver vários desses elementos na descrição do Hello (a questão do "amor", dos interesses, dos "ementos de gamificação" descritos pelo Orkut na reportagem da BBC e etc.). É interessante que quase todas essas idéias iniciais parecem estar presentes (talvez numa versão 2.0) no Hello. 

Desafios
Por conta disso, fico com a impressão de que o Hello é um novo orkut (o Orkut sempre detestou que o Google lançou a ferramenta com o seu nome), mas com um foco mais direcionado para a questão de encontrar outras pessoas e conhecer aqueles que têm interesses semelhantes aos seus. Embora quase todos os sites de rede social tenham flertado com essa proposta, nenhum conseguiu efetivamente concretizá-la direito equilibrando interação (que é a base do uso da ferramenta), conteúdo e interesses, formando "comunidades" e não apenas redes. Os valores constituídos foram sendo modificados: O Twitter, por exemplo, virou uma rede de conversação e informação(interação); o Facebook virou um espaço social (mas para socializar com quem você conhece, principalmente)(interação); o Instagram é conteúdo e interação etc. Mas aquelas ferramentas que conseguiram focar nos interesses comuns (Pinterest, por exemplo) acabaram perdendo no quesito interação (ou seja, são pouco "sociais"). Fico com a impressão, pela descrição do Hello, que ele terá como foco ser um espaço de comunidade virtual, mais do que de outras redes de pessoas pouco conhecidas. A comunidade é baseada na confiança, na interação e no interesse coletivo, além do compartilhamento. E construir esses valores em escala, hoje, é um grande desafio. 

Primeiro porque hoje há muito mais medo da exposição online (principalmente por culpa do Facebook) e as pessoas são mais cuidadosas nisso, reduzindo a interação a nichos mais privados (por exemplo, Whatsapp). Há uma preocupação para com a privacidade que não existia antes, que tende a fazer com que as pessoas se escondam mais para interagir. No tempo do orkut, a privacidade foi uma preocupação secundária, que só apareceu com força no seu declínio. Ou seja, será que o Hello vai conseguir inspirar as pessoas a compartilharem mais? Para isso, é preciso confiança no ambiente e confiança no grupo (ou seja, conseguir tornar a experiência no site positiva, retirando trolls e com uma política para o comportamento desviante, o que não é fácil - vejam que o Facebook até hoje não consegue aplicar essas políticas de modo global).

Outro desafio é a questão da confiança e da "verdade". A expectativa no Hello, nas palavras do Orkut é  "On Hello, I just want you to be you!" Necessariamente, as pessoas criam e utilizam máscaras nos sites de rede social. Essa é uma expectativa meio contraditória, porque há uma tendência a criar versões de si mesmo que não necessariamente são "reais". A questão da confiança só advém com a emergência de uma comunidade de suporte, o que é um estágio, digamos, avançado de capital social e de interação, que não pré-existe à ferramenta

Há espaço para outro site de rede social?
Depende do valor que essa ferramenta vai acrescentar para as pessoas em termos de capital social e como vai lidar com interação e interesse como motor principal. Se esses elementos forem interessantes e a apropriação representar valores que outras ferramentas não oferecem, é bem possível que roube usuários e tempo de outras ferramentas. A migração de usuários entre ferramentas diferentes já foi vista várias vezes na história dos sites de rede social. E com a migração de parte da rede, a rede inteira acaba também migrando. Veremos o que acontecerá quando o Hello for liberado para cá. Mas tenho a impressão de que, se a ferramenta conseguir focar efetivamente em "comunidades", há possibilidade.





Season Finale de Game of Thrones


Tenho acompanhado há algum tempo a movimentação na mídia social em geral com relação a produtos culturais e de modo específico, a série Game of Thrones. Ontem foi a season finale (último episódio da temporada) e, embora não siga a série na TV, tenho acompanhado o roteiro e as reações. O que me chamou a atenção nos dados que olhei hoje de manhã foi a questão da grande participação do Brasil nas discussões no Twitter. A imagem a seguir mostra a rede de mais de 100 mil tweets de ontem a noite, que utilizaram as hashtags #gameofthrones e #got. As cores representam a língua identificada nos tweets. Em azul temos o inglês, majoritário, o que era esperado. Em vermelho, temos, entretanto, o português. Achei interessante porque é um cluster bastante separado do restante (vejam o verde, que é espanhol, que aparece em bem menor escala e muito mais conectado ao cluster - grupo - azul) e bem demarcado (o que indica que as pessoas que tuítam em português tendem a retuitar quem também tuita em português em muito maior escala do que quem tuita em inglês). Os nós nomeados são aquelas contas com mais de 50 retweets, ou seja, contas que tiveram maior audiência e influência na discussão. O tamanho do nome indica a força dessa influência (indegree). 

gotlinguagem.png
(Clique na imagem para ver em tamanho maior.)

O segundo mapa embora bastante parecido, demarca a localização dos tweets por timezone. Fiz esse mapa para ver se havia alguma coincidência entre língua e localização (esperado). E realmente há. Vejam que, em azul, temos principalmente os tweets localizados na América do Norte (principalmente EUA) e, em vermelho, aqueles localizados na América do Sul (principalmente Brasil, mas também Argentina). Em verde, vemos a Europa e em cinza, tweets que não consegui localizar.

gotlocalizacao2.png
(Clique na imagem para ver em tamanho maior.)

Ainda estou olhando para esses dados (e observando os tweets, que é a parte que me interessa mais), mas acho interessante observar a relação de segunda tela com o Twitter e, de modo especial, a presença de um cluster de tweets do Brasil em português, bastante separado do cluster em inglês e bastante denso. Não sei se há essa separação porque há algo particular nos tweets em português que chama outros brasileiros a retuitarem (uma hipótese relacionada à cultura memética, por exemplo, do humor na internet por aqui) ou por questões relacionadas à própria língua (as pessoas entendem melhor o português, então dão preferência a este). Suspeito que seja um conjunto de ambos. De qualquer modo, os mapas mostram que há uma certa barreira entre os grupos, que somente é transposta com a ajuda de alguns grupos de usuários. Interessante investigar as razões disso e ver se há uma repetição deste padrão durante outros episódios da temporada.

** Dados acima coletados com o NodeXL, entre as 20h do dia 26 e as 07h do dia 27. Mapas gerados com o Gephi.

Discurso sobre Dilma no Twitter - 17/03


Como é de se esperar, dada a situação atual do País, há polvorosa em todos os sites de rede social e a política tornou-se uma pauta relevante para todos os atores. Estamos coletando os termos "Dilma" e "Lula" para entender um pouco melhor o impacto que esses debates online têm na situação e na construção dos discursos no País. Por ora, não consegui postar no blog do MIDIARS esses dados preliminares de ontem, mas acho que vale a pena compartilhar aqui. 

Esses dados são um recorte de 62.215 tweets e 47.337 atores que falaram sobre o assunto apenas hoje (17/03) pela manhã. Como nos mapas anteriores, sobre "Lula", vemos polarização, mas uma polarização mais difusa. Os dois principais grupos (em rosa e preto) convergem contas pró governo federal (preto) e contra o governo federal (rosa). É importante notar que nem todos os atores dentro de cada grupo necessariamente assumem uma posição pró ou contra, mas são retuitados principalmente em conjunto com contas que se posicionam desta forma. O grupo verde claro, mais difuso, representa principalmente reverberação da mídia internacional. Os grupos coloridos, abaixo, notadamente compreendem contas com retweets humorísticos. 

dilmanucleos1703menoszoom.png
No mapa a seguir podemos observar melhor os núcleos principais e as principais contas mencionadas. É possível ver a intersecção de contas humorísticas junto aos dois principais núcleos.

dilmanucleos1703.png
O que acho mais relevante, entretanto, são os discursos em torno da presidenta. O mapa a seguir mostra o que está sendo dito nos tweets de modo mais geral. Grupos de conceitos mais relevantemente associados aparecem da mesma cor. O tamanho do conceito indica sua frequencia nos dados. É importante notar como esses grupos aparecem conectados, formando nuvens de sentido e associações. Mantive hashtags e palavras de ordem. É interessante observar que há conjuntos de conceitos que são típicos de apoiadores e outros, de detratores do governo federal. Mas na maioria, o discurso em torno do governo e da presidenta é agressivo e negativo. É importante também notar a forte associação entre os discursos e  os termos "Dilma", "Lula" e "ministro". 

dilma1703discurso.png


Atualização de ontem: Mais um pouco sobre a polarização a respeito de Lula


Ontem, depois que eu publiquei o post sobre a polarização no Twitter, saiu a notícia de que o Ministério Público de SP teria pedido a prisão preventiva do ex-presidente Lula. Como era de se esperar, os ânimos acirraram na rede com uma imensa quantidade de tweets em pouco tempo (mais de 90 mil com mais de 70 mil participantes em duas horas só na minha coleta, provavelmente bem mais no final).A rede tornou-se bem mais densa e bem mais polarizada, (Clique nas imagens para ver em tamanho maior.)

1103tudo.png
O que me pareceu interessante foi que a polarização continuou, com um grupo favorável ao pedido de prisão (rosa) e outro contrário (verde). A rede a seguir representa nós que são agrupados pelos retweets e menções recebidas, ou seja, pela sua influência na discussão. O que é interessante é ver que cada grupo (contra ou a favor) tende a citar um certo conjunto de veículos e contas no Twitter, o que desenha essa polarização e também dá pistas sobre o discurso mais forte naquele grupo. No mapa a seguir, vemos esses clusters (grupos) de nós mais citados. Ë interessante observar também a presença de veículos noticiosos, de outras cores (porque não necessariamente foram tão retuitados pelos grupos, como no mapa que publiquei ontem) e da influência desses veículos nas narrativas construídas dentro de cada grupo. Podemos ver, por exemplo, que quem cita o @brasil247 está mais próximo de quem cita o @jeanwyllys_real do que de quem cita o @jornaloglobo. Este, por sua vez, tende a ser citado conjuntamente com outros veículos das organizações Globo.A maioria dos veículos noticiosos, por sinal, está em cores diferentes e ao centro dos clusters, indicando que sua função foi mais noticiosa (citados por outros grupos). Do outro lado, quem cita @o_antagonista, tende a estar mais próximo de quem cita o @blogdopim e a revista @veja, unico veículo noticioso que está mais "próximo" deste grupo.

Ao mesmo tempo, há vários outros influenciadores (notadamente contas humorísticas) que estão ao redor dos grupos e em seu centro, indicando também a presença da questão do discurso da piada em torno do debate.

centroifluenciadores1103.png
Finalmente, no último grafo, vemos os conjuntos de conceitos mais fortemente associados (formações discursivas) nas tweets (e é importante ressaltar que o número de retweets tem grande influência na construção desse discurso. Ao centro, vemos o que foi mais associado ao Lula (em rosa), que é a notícia do pedido de prisão, e palavras como  "golpe", "triplex", bem como o MP de SP. Em verde, vemos o segundo discurso mais prevalente (notadamente piadas sobre o pedido e a citação ao filósofo Hegel). Ao centro, em azul, o discurso sobre os protestos, associado a elementos mais "ativistas" (como retweets) ao evento.Além disso, outros conjuntos de falas também podem ser identificados, como a associação de Aécio Neves a Eduardo Cunha, discussão sobre o processo, especulações e etc. 
discursolula1102fr.png
Esse post foi baseado num conjunto de cerca de 90 mil tweets coletados durante o início da madrugada de hoje. O tamanho dos nós indica primeiramente seu indegree (ou apenas o grau, como no caso da terceira imagem), e as cores, a modularidade (grupabilidade). As conexões indicam relações entre dois ou mais nós e sua espessura denota a importância (frequência) desta relação nos dados. Para saber mais sobre os métodos utilizados aqui, há alguns textos disponíveis na parte de "artigos" deste site, e também o livro "Análise de Redes para Midia Social" (de minha autoria, a venda pela editora Sulina).

Polarização discursiva no Twitter: A conversação em torno de "Lula"


Nos últimos dias, o ex-presidente e as notícias em torno de seu nome tomaram a internet. Hoje, novamente. Como o esperado, há uma grande centralização dos nós em torno de clusters contra e a favor de Lula. A figura a seguir mostra dois grupos. A rede é formada pelos retweets e mostra os influenciadores de cada grupo. Os maiores nós são aqueles que mais receberam atenção dos demais dentro do mesmo cluster. Assim, o tamanho é proporcional ao indegree (número de menções e retweets). Quanto mais citado o nó, maior o seu tamanho na rede. Os grupos, assim, mostram tendência a retuitar informações com as quais há concordância dentro do cluster. Quanto mais próximos da fronteira entre os dois grupos, mais retuitado por nós dos dois grupos o ator foi. A demarcação dos grupos foi feita por modularidade.

O que acho interessante nesse quadro é justamente a polarização das notícias/informações contra e favoráveis a Lula, polarizando a rede em dois grandes grupos, cuja filiação está demarcada pelos nós mais influentes de cada grupo. (Clique na imagem para ver em tamanho maior.)

lulaindegreemod.png
Na figura a seguir vemos as hashtags mais usadas nos tweets sobre o ex-presidente. As hashtags, como já defendi em alguns artigos, têm um forte papel ativista e compreendem também iniciativas de influência, no sentido de surgirem dentro de grupos de apoio/contrários (o que pode ser percebido na tagcloud a seguir). Há forte articulação, assim, tanto contrária quanto a favor de Lula.
wordcloud.png
A primeira imagem é um quadro referente apenas à conversação de hoje, cerca de 15 mil tweets da manhã de hoje. A segunda imagem já diz respeito a dados coletados desde o dia 04/03, quando começaram a sugrir as primeiras notícias e cerca de 250 mil tweets compreendidos entre este dia e hoje. (Importante salientar: Um mesmo tweet poderia conter mais de uma hashtag, por exemplo, portanto, estas não são representativas da quantidade de tweets, mas da quantidade de tags.)

Surtos de Dengue e Zika: Comparativos de Discursos em Português, Inglês e Espanhol


Estamos monitorando um pouco do que tem sido publicado na midia social sobre as epidemias de dengue e zika no Brasil. Retirei dados do Twitter no período do dia 20/01 a 29/01 (dez dias) para testar algumas hipóteses, como a questão dos discursos em torno de cada uma das doenças. Ambas são transmitidas pelo mosquito aedes aegypt, que infesta todos os estados da federação. Utilizamos para esta análise a coleta automática de tweets, limpeza de dados e análises utilizando princípios de análise de conteúdo (contingência)  e algumas métricas de análise de redes. 

Resumo:
Rapidamente, para quem não vai ler textão:
  • mais tweets em Inglês e Espanhol sobre o zika virus do que em Português. Proporcionalmente, há mais tweets sobre a dengue em Português e Espanhol. Em inglês a doença quase não é citada.Mesmo com os efeitos da dengue mais abrangentes com relação à população em geral, a zika aparece mais associada a síndromes e ao pânico.
  • Parte dos tweets sobre a dengue "pega carona" no pânico da zika, como mais uma consequencia da doença.
  • A doença é associada ao mosquito e à transmissão pelo mosquito em todas as linguas. 
  • Há uma tendência de aumento no número de tweets sobre zika e dengue, associados ao pânico pelos efeitos. 
  • O foco dos tweets em Português é o Brasil, Dentre os conceitos mais associados está o governo, a presidenta Dilma, o medo e a transmissão.
  • Os tweets em Inglês e Espanhol são bem mais alarmistas com relação ao que está acontecendo. 
  • A discussão sobre o aborto aparece associada à doença em todos os datasets. 
  • Tweets em Espanhol focam a América Latina, a questão da gravidez e aborto, os problemas para o feto e os bebês, além de alertas de viagem para os países atingidos. Os tweets em inglês focam os problemas da doença e seus efeitos (principalmente nos bebês) e são mais focados na Europa e EUA. 
  • Jogos Olímpicos aparecem fortemente associados ao Rio e às doenças, dentro do clima de alerta geral, de modo mais forte em Inglês, mas também em Espanhol e Português, mostrando que pode haver algum tipo de prejuízo ao evento devido ao pânico. 

Contexto
Para algum contexto, os últimos dados do ministério da saúde (semana epidemiologica 52-2015), foram registrados mais de 1,6 milhões de casos prováveis de dengue no País, principalmente na região sudeste e com pouco mais de 21 mil casos graves e pouco mais de 800 óbitos. O aumento em relação a 2014 é considerável, muitas vezes dobrado. Já a zika é uma doença nova no País, cuja maioria dos casos não se consegue registrar pela falta de sintomas e que se espalhou principalmente pela regiao nordeste. Embora seja aparentemente uma doença de menor gravidade em relação a dengue, seu alarde deu-se principalmente com a confirmação de relação entre danos neurológicos em fetos (casos de microcefalia) e seu aumento no País. Há confusão nos números dos casos de zika, falando-se entre 500 mil e 1,5 mi em 2015. Desde o meio de 2015, o Brasil registrou mais de 4 mil casos de microcefalia, nem todos associados a zika, mas com um aumento alarmante em relação à média geral.

Dados
Em primeiro lugar, o número total de tweets sobre a zika é muito maior do que os tweets sobre a dengue no mesmo período. Embora a dengue seja uma doença mais abrangente em termos populacionais, e aparentemente mais perigosa, é a zika que domina as conversas, com a maioria expressiva de tweets (621.670), contra da 317.430 da dengue no mesmo período. É evidente que as duas doenças estão associadas em vários tweets. Diividimos esses tweets por linguagem identificada entre Português, Espanhol e Inlgês (apenas 432.473 sobre a zika e 183.951 sobre a dengue). Na imagem a seguir, vemos a divisão por lingua entre os tweets sobre cada uma das doenças.

tweetstotaisperiodopordoenca.png
É interessante observar que o número de tweets é muito maior em espanhol e inglês (o que poderia implicar em um interesse externo muito maior nas notícias sobre as doenças fora do Brasil do que dentro do Brasil). Também vemos que o número de tweets em Português sobre as duas doenças é mais próximo proporcionalmente, enquanto em Espanhol e Inlgês o destaque é principalmente para a zika. Observamos também que as menções à dengue, em inglês, são muito baixas em relação aos dados das outras linguas. O volume de tweets em espanhol é o mais expressivo.


Mas o que tem sido dito sobre a zika?

Não vou colocar todos os dados aqui, mas alguns elementos relevantes podem ser observados em cada um dos grafos. Vou focar principalmente nos dados sobre a Zika. A principal diferença entre os discursos das doenças é que o da dengue é bem mais ameno, mais "burocrático", enquanto nos tweets que falam sobre a zika apenas há um tom bastante alarmista e de pânico em muitos casos.

Nos grafos, as co-ocorrências mostram conceitos que tendem a aparecer juntos (conexões) e o tamanho das palavras indica sua frequencia naquele conjunto. Os dados a seguir focam principalmente as temáticas mais frequentes, dadas pelas associações normalizadas entre os conceitos. Para ver as imagens em tamanho maior, basta clicar nelas. 

Com relação aos tweets em Português, grande destaque é dado ao espalhamento do virus, sua associação com o País, com o mosquito, com a epidemia e com a microcefalia. É importante ressaltar também duas associações fortes, entre as Olimpíadas, o Carnaval, o Brasil e o vírus, e entre o governo (principalmente a presidenta Dilma), o ministério (da saúde) e o combate ao vírus e entre a gravidez, a microcefalia e o vírus. A questão da transmissão sexual também é abordada.  Apesar dessas associações, a maior parte do que é dito circula em torno de adjetivos relacionados ao medo, ao alerta e à esperança por uma vacina. Também nota-se forte associação entre a zika, a dengue e a chikunguya, outra doença causada pelo aedes.  Na imagem a seguir vemos as principais associações temáticas, de onde observamos de forma mais forte os eventos do Carnaval e das Olimpíadas também associados ao temor pelo espalhamento da doença. A temática do aborto também aparece na discussão junto à gravidez e mulheres.

tweetmodPT.png
Em espanhol, o tom é bem mais alarmista que em Português. Além de falar em "muertes" e "malformaciones", os termos usados focam em "urgência", "alerta", "perigo" e etc. Diferentemente dos tweets em Português, que focam praticamente apenas o Brasil, os tweets em espanhol associam a doença à america latina em geral (note-se os variados países citados), notadamente Argentina, Colombia, Venezuela e Bolívia. No quadro, também vemos os alertas direcionados aos viajantes (que também não aparecem nos tweets em Português), focados na gravidez e na má formação fetal.  A discussão sobre o aborto também aparece neste mapa e notamos uma forte associação entre o vírus e as Olimpíadas e o Rio de Janeiro. Também vemos a dengue e a chikunguya associadas ao debate. Nos tweets em espanhol, também, o combate aparece principalmente através do uso de mosquitos transgênicos (e também há a menção ao contágio sexual).

tweetsmodESP.png



Os tweets em inglês são ainda mais alarmistas que os em Português e Espanhol. A doença é fortemente associada aos mosquitos, à América Latina (e ao clima tropical e ao Brasil), à saúde, bem como relacionada aos problemas na gravidez para mulheres e aos problemas neurológicos (cerebrais) nos bebês. A discussão sobre o aborto também é levantada. Palavras como "threat" (ameaça), "alarming" (alarmante), "explosively" (explosivo), "risk"( risco) , "panic" (panico) e etc. aparecem bastante, dando o tom geral dos tweets. Novamente, como no conjunto de dados em espanhol, vemos alerta aos viajantes e uma forte associação entre as Olimpíadas, o Rio e a necessidade de prevenção. Nesse conjunto de tweets também aparece, mas de forma discreta, a dengue e a síndrome de Guillan-Barré, um tipo de paralisia associada à infecção pelo zika. 

tweetsmodENG.png

É interessante observar que há muito mais atenção da comunidade internacional nos tweets do que da própria população do Twitter no Brasil. Além disso, essa atenção é direcionada principalmente à zika, e em bem menor medida,  à dengue. Entre as associações mais fortes está o virus à América Latina e às Olimpíadas, além dos diversos alertas de viagem aos países atingidos (e consequentemente ao Brasil). Em todos os tweets há um tom alarmista, mas ele é pior em inglês. Outro ponto relevante é o destaque para as ações de prevenção e a esperança pela vacina. No tweets em Português, também vemos a associação da doença com o Carnaval e a palavra "Deus" associada.  Os tweets em inglês, são mais alarmistas, focados na emergência de saúde mundial e no espalhamento da epidemia e suas consequencias. Alertas diversos para viagens e para as Olimpíadas e um forte foco na questão da microcefalia também aparecem aqui de modo diferente.  Em espanhol, os tweets já focam principalmente a América Latina, embora a regularidade da associação com viagem e com as Olimpíadas seja igual aos dados em inglês.