Dados de Saúde – Quando mais se busca sobre gripe no ano?

Neste post, você aprenderá a:

  • Baixar dados do Google Trends com o R;
  • Usar gráficos de séries temporais do pacote forecast para analisar a sazonalidade de uma série temporal;
  • Converter uma série semanal em mensal;

O que é Sazonalidade?

No contexto de Séries Temporais, Sazonalidade se refere a um padrão fixo que se repete no mesmo período do tempo. Podemos citar alguns exemplos de cabeça, como vendas de trajes de banho no verão e de casacos no inverno. Modelar a sazonalidade de uma série temporal é fundamental na aplicação de diversos modelos de previsão.

Imagine que você é dono de uma farmácia ou um gestor de comunicação de alguma secretaria de Saúde e deseja saber em qual época do ano as pessoas costumam ficar mais doentes e/ou buscar por mais informações sobre a gripe, por exemplo. Uma fonte de informação útil, rápida e barata para o seu problema pode ser o Google Trends, que mostra o interesse das pessoas sobre um determinado tema ao longo do tempo.

O pacote gtrendsR fornece uma interface simples de conexão do R com o Google Trends, sem a necessidade de autenticação por login ou algo do tipo.

Para este post, usamos os seguintes pacotes:

 

Vamos então baixar dados referentes a buscas pelo termo gripe. Usamos a função gtrends para baixar os dados, no qual atribuímos “BR” ao argumento geo para especificar que apenas buscas no Brasil sejam retornadas.

 

É perceptível que essa série temporal possui um forte componente sazonal, pois o número de pesquisas é maior no primeiro semestre que no segundo.

O pacote forecast fornece algumas funções de gráficos úteis, mas para usá-las será necessário transformar os dados acima em objetos da classe ts. A variável res, na qual foi salva o output da função gtrends, é na verdade uma lista de dataframes. Um deles, o interest_over_time, é o que possui os dados plotados acima.

Note que usamos a função lubridate::decimal_date() para converter a data de início da série em decimal (formato aceito pela função ts) e definimos a frequência como 52 pois a série é semanal (e um ano possui 52 semanas).

Com isso, já podemos usar diversos gráficos do pacote forecast para auxiliar a interpretação do componente sazonal da série:

ggmonthplot(interesse_ts) + theme_minimal()

Os dois gráficos mostram claramente que existe um pico de interesse da pessoas pela gripe no segundo trimestre do ano, mais especificamente entre as semanas 15 a 21.

Talvez o fato de a série ser semanal dificulte a análise da sazonalidade neste caso. Afinal de contas, é muito mais fácil saber em que mês estamos do que em qual semana.
Por isso, vamos transformar a série de semanal para mensal. Isso é feito usando a função lubridate::floor_date(), que recebe uma data de input e retorna o primeiro dia da referência escolhida. Por exemplo:

Aplicando o que aprendemos:

Agora é mais fácil ver que os meses onde há maior busca pelo termo gripe são Abril e Maio.

Gostaram do post? No próximo vou falar um pouco sobre sazonalidade de algumas cidades turísticas!

Quer aprender um pouco mais sobre séries temporais o curso em São Paulo começa esse mês. Mais informações aqui

postrelacionados

Tags:  ,   ,   ,   ,   ,   ,   ,   ,   ,  

Comentários

comments

Deixe um comentário