Análise de Texto – Os discursos dos Deputados na sessão de votação do Impeachment

O Jornalista e Professor em Ciência Política Fábio Vasconcelos publicou no Blog Na Base dos Dados uma rápida análise que fizemos sobre os discursos parlamentares da sessão de votação do Impeachment do dia 17 de Abril na Câmara dos Deputados.

Para quem ficou curioso, a base de dados foi o PDF (sim, acreditem) da Câmara dos Deputados. Tentei puxar os dados dos discursos via R utilizando o pacote bRasilLegis, mas descobri que os dados só serão liberados entre hoje (19) e amanhã. (Atualizado: os discursos já estão disponíveis)

Depois do tratamento do PDF eu utilizei o Iramuteq. Para quem não conhece, o Iramuteq é uma “interface visual ” para utilizar o R e produzir análise de texto. É um “filho/primo” de um conhecido software de análise de texto francês chamado Alceste. Suas técnicas, portanto, são fortemente baseadas na literatura francesa de análise textual.

Uma das técnicas mais interessantes do Iramuteq é o método Reinert de agrupamento de proximidade de palavras. De uma maneira bem simples, ela permite achar grandes grupos temáticos em um corpus de texto.

No exemplo que fizemos, encontramos quatro grandes grupos:
Termos

É fácil verificar a posição de cada grupo em relação aos termos vizinhos e em que medida cada grupo está próximo ao outro. Azul e Verde representam a turma do SIM,   vermelho a turma do Não e em cinza uma categoria um pouco mais residual (tem sim, não e também abstenção).

O Iramuteq utiliza um dicionário para tratar os termos, então o termo querida foi tratado como “querido”, observem na nuvem azul. As UFs com espaço no nome (Ex. “São Paulo”) foram substituídas no corpus por “são_paulo” para o Software não entender duas palavras distintas.

Outra saída super interessante é a AFC (Análise Fatorial de Correspondência) das variáveis ilustrativas. Ela permite analisar as variáveis de cada parlamentares em relação ao seu pronunciamento (UF, Voto e Partido)

 

No exemplo, a análise feita foi apenas dos partidos.Partidos

 

Alguns trabalhos super interessantes como o Atlas Político e o Radar Parlamentar utilizam técnicas “parecidas” para dar o posicionamento dos partidos com relação ao conjunto de votações nominais feitas em plenário.  Aqui o Iramuteq aproximou os partidos pelo conteúdo de seus discursos.

(Atualizado)

Um exemplo que não havia postado antes é a relação entre as UF:

afcf_col

[:en]Journalist and political science teacher, Fábio Vasconcelos, published a quick analysis on the blog Na Base dos Dados which we created on the parliamentarians’ speeches during the impeachment voting session in the Chamber of Deputies on 17th April.

For the curious, the database was the Chamber of Deputies’ PDF (yes, believe it or not). I tried to extract data from the speeches via R using the bRasilLegis package but I discovered that it will only be released between today (19th) and tomorrow. (Update: the speeches are now available).

After handling the PDF, I used Iramuteq. For those who do not know about it, Iramuteq is a “visual interface” to use R and produce textual analysis. It is the “offspring” of well-known French textual analysis software called Alceste. However, its techniques are strongly based on the textual analysis of French literature.

One of Iramuteq’s most interesting techniques is the Reinert method of collecting together word proximity. It allows you to find large thematic groups in the body of a text in a very simple way.

In this example, we found four large groups:

Termos

Each group’s position can be easily confirmed with regards to the neighbouring terms and the extent to which each group is close to another. Blue and green represent the Yes group; red the No group and there is a more residual group in grey (it has yes, no and also abstentions).

Iramuteq uses a dictionary to process the terms, so the term “querida” was dealt with as “querido”, as can be seen in the blue cloud. The States with a space in their name (Eg “São Paulo”) were replaced in the body by “são_paulo” for the software not to understand two distinct words.

Another really interesting option is factorial Correspondence Analysis (CA) of the illustrative variables. It allows the variables of each parliamentarian in relation to their speech (State, Vote and Party) to be analysed

 

The analysis was only of the parties in the following example.

Partidos

 

Some really interesting work such as Atlas Político and Radar Parlamentar use similar techniques to give the parties’ position in relation to the roll-call votes cast in the plenary session.  In this case, Iramuteq brought the parties together from the speech content.

(Updated)

An example which was not previously posted is the relationship between the States:

afcf_col

 

postrelacionados

Comentários

comments

Comentários (4)

Deixe um comentário