Imaginemos que seu escopo de pesquisa são blogs e pequenos sites regionais. Ao fazer a busca utilizando IssueCrawler, Uberlink ou qualquer outra ferramenta de “crawler”, você, invariavelmente, vai ter, em sua base de dados todos os links capturados nessas ferramentas. Possivelmente:
- Portais nacionais (G1, UOL, etc);
- Sites Governamentais (Prefeituras, Ministérios, etc);
- Sites de políticos e/ou partidos;
- Sites de e-commerce;
- Sites “técnicos” (google, lojas de aplicativos, sites de desenvolvedores, etc);
- Mídias Sociais.
Essa é uma pequena lista, mas é possível que você encontre muita coisa além daquilo que você está pesquisando. O ponto crucial do processo de “limpeza” é entender o que é útil conceitualmente para a sua pesquisa ou não. Sites técnicos, de e-commerce e de mídias sociais podem não ser muito úteis e, talvez, valesse a pena você simplesmente excluir esses dados de sua rede.
Outros tipos de sites, no entanto, podem ser muito úteis para que você entenda a quem seus sites “alvo” estão conectados. É o que eu costumo chamar de sites referência em uma rede – são sites que ajudam a construir a narrativa da sua rede. Alguns exemplos:
1- Se, para um grupo específico, aparecerem sites governamentais, é possível que exista algum tipo de aquisição informacional daquele grupo de informações do governo. Isso pode ser uma informação bem diferente e valiosa, caso algum grupo tenha a presença de portais noticiosos.
2- Podem aparecer determinados sites de políticos para um grupo (Lula, Partido dos Trabalhadores, etc) e, para outro grupo, podem aparecer outros sites do tipo (Aécio Neves, PSDB, etc). Novamente: esses sites não são os do seu objeto de pesquisa, mas ajudam a construir e a entender a sua rede.
Você poderá fazer essa limpeza e “tratamento” desses dados de duas formas.
A) Apagando o nó – forma mais simples e rápida, mas você pode perder alguma informação
B) Criando uma nova variável – modo forma mais adequado: crie uma variável binária para filtrar os dados depois e não exibir esses nós.