Dados do Congresso Brasileiro – Parte 1

O movimento por Dados Abertos está contribuindo imensamente para uma maior transparência e consequente maior fiscalização. Mas outro ponto super relevante é como os nossos cientistas políticos estão adorando todo esse processo. Nunca foi tão fácil obter dados que antes eram extremamente trabalhosos e difíceis de serem obtidos.

A mais recente novidade é o pacote para R congressbr, desenvolvido por Guilherme Duarte e Robert McDonnell (professores dos cursos de R do IBPAD) e Danilo Freire. O que o pacote faz é buscar nas APIs da Câmara dos Deputados e Senado Federal os dados e é uma “mão na roda”. Muitas vezes os dados das APIs são bem confusos e, principalmente, Senado e Câmara não se conversam muito.

Vou mostrar um rápido exemplo do pacote:

Depois de ter rodado esse código, você terá um data.frame com informações detalhadas de todos os PLs que foram apresentados em 2017. Uma variável que eu acho super legal é a variável de bill_index . Essa é uma variável de texto com a indexação em termos da proposição. Quem faz a inserção é a Mesa da Câmara dos Deputados, o que nos garante uma certa qualidade nos termos. Vou utilizar essa variável para fazer alguns tratamentos de texto e entender um pouco o que nossos Deputados Federais andaram apresentando em 2017.

 

Os tratamentos feitos aqui são “padrões” e é muito provável que você vá utilizá-los em bases diferentes. Vou mostrar nesse post uma simples nuvem de palavras e nos próximos posts pretendo avançar um pouco na área de “text mining”.

Resultado:

 

Resultado simples, mas tenho certeza que você já pensou em vááárias possibilidades, não é?  Não esquece de comentar aqui.

Ficou curioso e não sabe trabalhar com R? Que tal aprender conosco em nossa formação? O curso de Programação em R em São Paulo começa dia 6 de maio. Em Brasília nós teremos o curso de Dados para Relações Governamentais. 

 

 

 

postrelacionados

Comentários

comments

Deixe um comentário