Dominando APIs para extração de dados das mídias sociais

Nos últimos meses, saíram duas novas versões da Facebook Graph API (a interface de coleta de dados da plataforma). Sempre que é divulgada uma API, há preocupações, rumores e mitos tanto da comunidade de pesquisa quanto do mercado sobre limitações no acesso aos dados. Por isso, é importante conhecer como as mudanças limitam a cessão de dados e como isso impacta a pesquisa acadêmica e mercadológica.

Histórico de modificações

As Application Programming Interfaces (APIs) são interfaces que regulamentam a troca de dados entre plataformas e terceiros. É muito comum que elas sejam atualizadas por mudanças no website e no plano de negócio das empresas.

Em abril de 2015, o Facebook desativou a versão 1.0. Com isso, impossibilitou a extração de postagens por meio de palavras-chave, como ainda ocorre no Twitter. Rapidamente, correu o rumor do “fim do monitoramento” já que a principal técnica de coleta de menções não funcionava mais. Em texto publicado no livro do IBPAD, argumentei que, embora a modificação criasse uma limitação para a análise da plataforma, há diversas outras técnicas de amostragem que podem ser implementadas para pesquisa no Facebook, principalmente se aproveitando métodos amostrais da análise de redes sociais.

Alterações recentes

A implementação de uma versão nova da API não invalida, necessariamente, as anteriores. Atualmente (fevereiro de 2018), o Facebook possui oito versões da interface em funcionamento. Cada uma tem duração aproximada de dois anos. Quando a documentação de uma API é publicada, há dois tipos de mudanças:

  • New features, changes e deprecations: são modificações que alteram apenas a versão de lançamento. Por exemplo, se uma mudança dessa natureza for realizada na API 2.10, ainda podemos usar a API 2.9 para extrair o dado, enquanto ela estiver em vigência.
  • Breaking Changes: são modificações permanentes e transversais. Elas atingem de uma vez só todas as APIs. Essas alterações geralmente possuem 90 dias para que os desenvolvedores adaptem seus aplicativos.

A API v2.11 foi lançada pelo Facebook em 07 de Novembro de 2017. Em sua documentação de alterações, percebemos que há quatro tópicos de 90 Day Breaking Changes. Isto é, aplicadas universalmente a partir da segunda semana de fevereiro. A principal dessas mudanças é a page/* referente a informações de usuários pessoais. Antes dessa alteração, era possível extrair o ID (identificador único) e Nome de todos usuários que curtiram ou comentaram publicações em fan-pages públicas, grupos ou eventos. Agora, isso não é mais possível. O campo retorna em branco.

A outra alteração não é da API 2.11. Oficialmente, desenvolvedores do Facebook argumentam que ainda é um bug de instabilidade da API. Na prática, esse bug inviabiliza a extração de dados históricos. Já não consigo coletar quase nada além de 600 posts no passado. A partir disso, a API retorna uma dezena de publicações a cada três meses. Como é um erro, ainda não afetou todos usuários ou todas páginas. Mas já tem sido reportado no fórum de desenvolvedores do Facebook por diversos pesquisadores de vários países.

Como isso afeta

A modificação da API 2.11 impede a extração de dados de ID e Nome em locais públicos, como postagens de fan-pages. No entanto, ainda é possível ter essa informação se você for gestor da página a partir de seu Page Token. Na prática, ainda conseguiremos analisar quem são nossos fãs mais engajados, qual tipo de reação dão e seus comentários. Só não conseguiremos fazer isso em páginas de concorrentes.

Para pesquisa, isso impossibilita a análise que chamei de Mapeamento de Fluxo no capítulo do livro. Isto é, o rastreamento de curtidas e comentários dados por milhares de usuários em várias páginas para entender o que curtem e comentam e tirar insights para perfilizar a audiência. Para o monitoramento, elimina de vez a possibilidade de análise dos perfis do público em larga escala.

Já o erro ou instabilidade que corta acesso a dados históricos é mais grave. Ele está há quase um ano sem solução, e, se confirmado, torna a extração de posts no passado bem parecida com a do Twitter. Isso faz com que os projetos de pesquisa tenham que coletar informações praticamente em tempo real. A formação de acervo de dados digitais será ainda mais valiosa para a academia.

Conheça e se inscreva no curso online Extração de dados de mídias sociais via API. Este curso tem o objetivo de ensinar os conceitos teóricos dos métodos digitais e da plataformização da web, de aplicar técnicas práticas de coletas de dados pela Graph API do Facebook e Twitter Search API, além de coletar dados em tempo real pela Twitter Streaming API.

postrelacionados

Comentários

comments

Deixe um comentário