Redes de Blog – Limpeza de dados no Gephi

Módulos

Análise de Redes em Mídias Sociais - Módulo 1

Aulas

Análise de Redes em Mídias Sociais - Módulo 2

Aulas

Análise de Redes em Mídias Sociais - Módulo 3

Aulas

Análise de Redes em Mídias Sociais - Módulo 4

Aulas

Análise de Redes em Mídias Sociais - Módulo 5

Aulas

Redes de Blog – Limpeza de dados no Gephi

Prévia gratuita

Qualquer trabalho de pesquisa exige sempre esforço de “limpeza” e tratamento dos dados. Não há jeito: por mais automatizada que suas ferramentas sejam, o olhar do pesquisador é fundamental para filtrar aquilo que realmente interessa e que realmente responde suas perguntas de pesquisa.

Mostramos, nessa aula, alguns passos para a limpeza dos dados coletados com o Uberlink. Os exemplos demonstrados são específicos de Redes de Blogs, mas podem ser úteis em outras situações.

Escopo do conteúdo

Imaginemos que seu escopo de pesquisa são blogs e pequenos sites regionais.  Ao fazer a busca utilizando IssueCrawler, Uberlink ou qualquer outra ferramenta de “crawler”, você, invariavelmente, vai ter, em sua base de dados todos os links capturados nessas ferramentas. Possivelmente:

  1. Portais nacionais (G1, UOL, etc);
  2. Sites Governamentais (Prefeituras, Ministérios, etc);
  3. Sites de políticos e/ou partidos;
  4. Sites de e-commerce;
  5. Sites “técnicos” (google, lojas de aplicativos, sites de desenvolvedores, etc);
  6. Mídias Sociais.

Essa é uma pequena lista, mas é possível que você encontre muita coisa além daquilo que você está pesquisando. O ponto crucial do processo de “limpeza” é entender o que é útil conceitualmente para a sua pesquisa ou não. Sites técnicos, de e-commerce e de mídias sociais podem não ser muito úteis e, talvez, valesse a pena você  simplesmente excluir esses dados de sua rede.

Outros tipos de sites, no entanto, podem ser muito úteis para que você entenda a quem seus sites “alvo” estão conectados. É o que eu costumo chamar de sites referência em uma rede – são sites que ajudam a construir a narrativa da sua rede. Alguns exemplos:

1- Se, para um grupo específico, aparecerem sites governamentais, é possível que exista algum tipo de aquisição informacional daquele grupo de informações do governo. Isso pode ser uma informação bem diferente e valiosa, caso algum grupo tenha a presença de portais noticiosos.

2- Podem aparecer determinados sites de políticos para um grupo (Lula, Partido dos Trabalhadores, etc) e, para outro grupo, podem aparecer outros sites do tipo (Aécio Neves, PSDB, etc). Novamente: esses sites não são os do seu objeto de pesquisa, mas ajudam a construir e a entender a sua rede.

 

Você poderá fazer essa limpeza e “tratamento” desses dados de duas formas.

A) Apagando o nó – forma mais simples e rápida, mas você pode perder alguma informação

Como excluir um nó no Gephi

B) Criando uma nova variável – modo forma mais adequado: crie uma variável binária para filtrar os dados depois e não exibir esses nós.

Passo 1

Passo 2

Sujeira na URL e duplicações

Outra limpeza muito importante, ligeiramente chata, é a limpeza das URLs e possíveis duplicações encontradas. Infelizmente, as ferramentas não estão fazendo isso automaticamente, então, é importante cuidar disso. Um exemplo clássico são os blogs Blogspot. Alguns sites podem funcionar com ou sem a inserção do WWW antes do link. No caso do blogspot, funcionam como “blogspot.com” ou “blogspot.com.br”, exemplos:

http://tenentelaurentinoagora.blogspot.com

http://www.tenentelaurentinoagora.blogspot.com

http://www.tenentelaurentinoagora.blogspot.com.br

http://tenentelaurentinoagora.blogspot.com.br

Isso pode ser um problemão para a sua pesquisa, já que temos quatro possíveis nós que, na verdade, é apenas um. Dependendo de como estiver a rede, esses quatro nós vão dividir os laços e confundir completamente a sua análise.

Não posso simplesmente deletar?

Não, não pode. Se você deletar no Laboratório de Dados, perderá suas preciosas conexões. O que você vai precisar fazer é “mesclar” os dois nós. Ao mesclar, você vai aproveitar as informações de um nó e suas conexões. Fazê-lo é bem simples – basta selecionar duas linhas, clicar com o botão direito do mouse e ir em “mesclar”. Confira na imagem:

Passo 1

Passo 2

O problema de mesclar os nós é que você sempre terá um trabalho visual chato para encontrar e selecionar os nós. Para facilitar esse processo, minha sugestão é que você faça uma limpeza no começo do “label” de cada nó, retirando por padrão o “http://www.”. Dessa forma, se você ordenar por ordem alfabética a coluna “label” (basta clicar no nome da coluna), ficará mais fácil localizar os nós duplicados.

O Gephi tem uma super vantagem em relação a diversos softwares: a busca por Expressão Regular. Caso você não saiba o que é expressão regular, recomendo que leia este artigo aqui.Em resumo, expressão regular é uma “mão na roda” para localização padrões.

Você pode utilizar este código na busca:

((?i)(https?):\/\/)|(?i)(www.)

Basta clicar em Procurar/Substituir, definir como expressão regular na busca, colocar a expressão regular, definir a coluna “label”, localizar e, depois, substituir tudo por vazio.

Et voilà!

Feitas as substituições, você poderá ordenar a coluna mais facilmente e procurar pelos nós duplicados.

Que tal praticar com uma rede de exemplo? Faça o download da rede de páginas das Universidades Brasileiras (aqui) ou arquivo (aqui).

 

Tags da aula: expressão regular, gephi, mesclar, redes de blogs, substituição
Voltar para: Análise de Redes em Mídias Sociais – 1ª Edição > Análise de Redes em Mídias Sociais - Módulo 4

OutrasInformações