Google Trends e algumas buscas (Brasil)

Primeiramente, alguns nomes cogitados para a presidência.

presidenciaveis

Agora, dois novos personagens do cenário político.

presidenciaveis4

O eterno mito de que Mises é mais procurado do que Marx.

presidenciaveis3

Finalmente, alguns grupos que foram importantes no passado recente, mas cuja influência parece ter diminuído (em um dos casos, pelo menos) recentemente (será?).

presidenciaveis2

Ok, são buscas no Google. Não são notícias. Não dá para inferir muito, nem sobre correlações (muito menos sobre causalidades). De qualquer forma, é divertido, não é?

Anúncios

Momento R do Dia – Chocolate!

Fazia tempo que não tínhamos um “Momento R do Dia”, né? Pela falta de pedidos, sei que ninguém estava com saudades. Bom, vamos aos fatos. Voltando ao tema do “chocolate”, o Gabriel Sallum, meu ex-aluno, provocou: “- Faz com dieta no Google Trends (ou o Google Correlate)”. A idéia do Gabriel é o sujeito se empaturra com o chocolate em um dia, tem crise de consciência e tenta fazer dieta depois.

A idéia, aliás, era para ser com dados diários. Infelizmente, não os temos para o Brasil lá no Trends. De qualquer forma, conversamos rapidamente (ele estuda ferozmente para as provas da ANPEC e não tem mais tanto tempo quanto antes…quando assistia às minhas aulas, famosas por serem muito fáceis e óbvias).

Como sempre, a provocação surtiu efeito. Eis o código.

dat <- read.table(file="clipboard", header=TRUE, sep="\t", na.string="NA",
                  dec=".")
temp<-ts(dat, start=c(1))
plot(temp)
library(astsa)
lag2.plot(dat$dieta,dat$chocolate,max.lag=12)
lag2.plot(dat$chocolate,dat$dieta,max.lag=12)

Sim, a idéia é que você faça o download dos dados a partir do site do Google Trends e depois copie as colunas e cole no R. Eis uma dica de como obter sua planilha.

chocolate2

As séries? Bem, estão aqui e você já percebe que existem alguns problemas.

dieta_choco

Primeiramente, há um pico na série “dieta”. Em segundo lugar, “chocolate” começa a subir (apresenta algo como uma tendência a partir da observação 400, algo que já comentei antes).

Mesmo assim, em nome da brincadeira, resolvi seguir adiante. Eis o resultado.

dieta_choco2

dieta_choco3

Ok, as correlações não são tão boas, não é? Sem falar que os outliers devem estar atrapalhando. A conclusão de que a correlação seria muito forte entre, digamos, as buscas envolvendo “chocolate” na semana “t” e as que envolvem “dieta” onze semanas antes (a correlação é 0.15, e nem testamos sua significância estatística…) pode não significar nada (análise similar no segundo conjunto de gráficos sofreria da mesma crítica).

Estaria Gabriel errado? Talvez sim, talvez não. Além dos outliers, há o problema de se refinar melhor esta busca lá no Google Trends. Outro ponto importante diz respeito ao fato de que seria interessante filtrar as séries (tendência, sazonalidade…).

De qualquer forma, o desafio do Gabriel continua de pé.

 

 

 

Momento R do Dia – Google Trends novamente

Ok, vejamos a pesquisa por “seguro desemprego” (a pesquisa com “seguro-desemprego” mostrou-me que as pessoas não ligam muito para o hífen).

library(gtrendsR)
gconnect("XXXXXX@gmail.com", "senha")
res<-gtrends(c("seguro desemprego"))
plot(res)
show(res)

Vejamos o gráfico.
gtrends_segurodesemprego

Repare que a última observação é zero porque ainda não foi computado o valor do último período (aquele compreendido entre 29/11 e 05/12). Outro detalhe legal é conferir o resultado de show. Lá você percebe que a busca é praticamente toda feita no Brasil, com um ou outro gato pingado em menos de meia dúzia de países. Há mais informações interessantes, claro.

O potencial do Google Trends para previsões já foi adiantado aqui, lembra?

Diagrama de Dispersão bacana!

Veja só este diagrama de dispersão feito originalmente em Phyton e replicado em R, de duas formas distintas.

Deu vontade de fazer igual, não deu? Eis minha contribuição com a Lady Gaga do post anterior.

gagadispersion

Gostou? Eu gostei.

Google Trends e nós: mais um artigo publicado

Com dois anos de atraso (2012, vai…) – a USP Leste teve vários problemas de instalação, lembram? – acaba de ser publicado meu artigo com Renato Byrro, Ari e Salvato na Revista Gestão & Políticas Públicas.

A idéia inicial, do Renato, ainda no Nepom, foi usar o Google Trends para análises de conjuntura. Após buscar a bibliografia, descobrimos que o grande Hal Varian já havia feito algo assim. Ele e mais uns outros. Daí desenvolveu-se o restante da história.

Quanto ao resumo do artigo…

This article’s aim is to replicate the tests of Choi & Varian (2009a) for Brazilian economic variables, analyzing ARIMA time series models and evaluating the reduction in forecasting errors when introducing a Google Trends variable in order to check if this is a good leading indicator. We used time series related to the labor market and credit market. For the first, the forecasting of the unemployment insurance had a better performance after the inclusion of the Google Trends. Regarding the unemployment rate, the performance was not good. For the credit market we used two series: concession of lendings linked to credit card and mortgages. Their forecasting were not better after the inclusion of the Google Trends.

Ah sim, para um gráfico que possa despertar sua curiosidade…

Fullscreen capture 1152015 72451 AM

 

Bem, é isto. Mais um artigo publicado!

Petróleo, Aborto…eis o : “Momento R do Dia”!

Eis o prof. Hyndman com uma dica sobre dados semanais aqui. Entretanto, veja só que exemplo de incentivo à pesquisa é o norte-americano. Ao invés de esconder as séries, a agência de energia de lá coloca os dados disponíveis para quem quiser ver de forma simples.

Não adianta fazer como no Brasil, em que os dados ficam, muitas vezes, em formatos ilegíveis ou escondidos (honrosas exceções ao IBGE, Banco Central do Brasil e Ipeadata e alguns outros que eu me esqueci de mencionar agora). Mas vamos ao R.

Dados semanais? Como diria Parker Lewis: “not a problem! (if you use R)”

A base de dados que o prof. Hyndman preparou não tem as datas e, aí é que é bacana estudar um pouco de R. Como é que ele constrói a frequência dos dados?

gas <- ts(read.csv("http://robjhyndman.com/data/gasoline.csv", header=FALSE)[,1],
          freq=365.25/7, start=1991+31/7/365.25)

A planilha não tem cabeçalho, por isto o “header=FALSE”. Depois, ele importa a primeira coluna da planilha [,1] e define a frequência como “365.25/7”, começando em “1991+31/7/365.25”. Um ano tem 52 semanas, aproximadamente, e é por isso que se faz 365.25/7 (aproximadamente: 52.17857).

Ainda observando a planilha, vejo que o primeiro dado é o da segunda semana de Fevereiro de 1991 (o valor é: 6,621) lá no site da EIA. Logo, entendo que 1991+31/7/365.25 é a mesma coisa de dizer que estamos iniciando a base de dados em 1991, com dados semanais (semanas de sete dias) em um ano de 52 semanas. Será? Vamos experimentar com outra base de dados, a das buscas no Google Trends de ontem.

new_aborto<-ts(aborto$aborto, freq=365.25/7, start=2004+31/7/365.25)

plot(new_aborto)
h<-decompose(new_aborto)
plot(h)

Vejamos o gráfico da decomposição.

newaborto

Vejam só! Que coisa bonita, heim? Bom, notaram que eu coloquei os códigos do R em um formato mais bonito, né? Sugestão do Cinelli, ao qual agradeço pela gentileza. Agora, descobrir, finalmente, como trabalhar com dados semanais (definir a frequência, sem ter que usar o pacote zoo) é algo que eu devo agradecer ao prof. Hyndman.

Bastou pensar um pouco e fazer duas ou três contas para entender como fazer isto porque ele disponibilizou o script dele. É por isto que eu faço o mesmo aqui, para meus alunos que também são estudantes e para os estudantes de outros locais do país ou do mundo.

E estes ciclos da busca pela palavra “aborto”?

O meu amigo Reginaldo, lá no livro de caras do Zuckerberg, ficou estupefato com isto. Por dois motivos, acho. Primeiro, ele tem duas filhas (que já nasceram na era da internet) e, segundo, ele é economista e adora buscar padrões. Suspeito, claro, que ele está preocupado com as filhas mais do que com os padrões, mas é apenas uma hipótese simplificadora minha, eu sei. Por que será que existe este padrão?

Aqueles que se preocupam com suas filhas, por favor, ajudem meu amigo (vou manter a hipótese de que ele é mais pai do que economista, ok?). Os que gostam de encontrar padrões, aceito comentários. ^_^

Pós-Carnaval

aborto

Eu sei que você é um moleque responsável e que você não é uma menina boba. Mas a busca pela palavra “aborto” no Google Trends me diz que esta história de aborto nos três primeiros meses não é apenas fruto da imaginação do seu pai.

Acho que um pai mais preocupado tentaria rever suas agendas, desde 2004, para tentar descobrir se, realmente, o pessoal anda passando dos limites no Carnaval, não?

Bem, divirta-se no Carnaval com o Google Trends e, lembre-se: diversão segura, ok?

UPDATE: Momento R do Dia!

O detalhe aqui é a adaptação da data (os dados são semanais) para fazer o gráfico:

library(ggplot2)
aborto <- read.table(file = “clipboard”, sep = “\t”, header=TRUE)
head(aborto)

# transformando data:

aborto$startingDay <- gsub(“^(\\d+-\\d+-\\d+).+”, “\\1”, aborto$Week)

aborto$date <- as.Date(aborto$startingDay)

g <- ggplot(aborto, aes(date, as.numeric(aborto))) + geom_line()
print(g)

library(scales)
g <- g + scale_x_date(breaks=date_breaks(width=”1 year”),
labels=date_format(“%Y”))

Resultado:

aborto_R_googletrends

Tendências, Previsões, Google e Hal Varian: aposto que você já ouviu falar de pelo menos dois deles!

Lembra do Google Trends? Bem, você não deveria desprezá-lo. Eis meu exemplo.

trends

Ok, pode não ser o serviço mais interessante do mundo, se você pensar nele como um simples mecanismo de busca. Mas você pode fazer como Choi & Varian (2009). Ah, o código, no final do texto, foi escrito em…………….R! Isso mesmo.

A previsão é boa? Citando os autores em uma das séries:

Note that the model that includes the Google Trends query index has smaller absolute errors in most months, and its mean absolute error over the entire forecast period is about 3 percent smaller. (Figure 1.4). Since July 2008, both models tend to overpredict sales nd Model 0 tends to overpredict by more.It appears that the query index helps capture the fact that consumer interest in automotive purchase has declined during this period.(p.4)

É, você não deveria desprezar o R, heim?

UPDATE: Alguns slides, apresentação deles, em vídeo.