Tudo o que você queria saber sobre o AIC mas nunca te contaram

Prof. Akaike, falecido em 2009.

Rob Hyndman, autor de um ótimo livro de previsão (e de um dos melhores pacotes para R, em termos de séries de tempo univariadas), tem dez fatos sobre o AIC que geralmente a gente nunca sabe. Gosto, principalmente, do último:

The AIC is not a con­sis­tent model selec­tion method. That does not bother me as I don’t believe there is a true model to be selected. The AIC is opti­mal (in some senses) for fore­cast­ing, and that is much more impor­tant in my opinion.

Não sei se eu acho que previsão é mais importante sempre, mas, sim, não devemos nos prender à fantasia de que existe um modelo verdadeiro. Diversos alunos olham para mim como se eu fosse um vendedor de falsos remédios porque eu digo que modelagem econométrica é difícil. Alguns são preguiçosos mas, outros, claro, acham que eu sou idiota e que um dia encontrarão um professor que lhes mostrará a pedra filosofal.

Eles não fazem idéia do quanto estão errados. Eu sei disso, você, creio, também, e mais um monte de gente também. Mas vai falar isso para o aluno que não quer acreditar na inexistência do modelo ‘verdadeiro’…

Não confunda urubu com meu louro ou “Econometria não é Estatística e vice-versa, embora…”

Excelente texto do Rob Hyndman sobre as diferenças entre as duas espécies de aves mais exóticas que conheço: os estatísticos e os econometristas.

O mais importante, talvez, seja o otimismo do final do texto. Bom, será que estamos mesmo fechando o hiato entre ambas as abordagens? Meu testemunho pessoal fica no meio do caminho, digamos assim. Desde que comecei a usar o R, tive contato com muito mais ferramentas – e, por conseguinte, com os vocábulos pertinentes – de ambas as áreas. Tem momentos em que a gente fica preocupado se está burro, enlouquecido, bêbado ou, digamos, sob efeito dos três.

Mas é muito importante não se deixar abater. Afinal, alguém precisa fazer pesquisa, né? Como aquele aluno interessado em Economia que leu sobre algum método estatístico novo e que tem potencial vai fazer se não encontrar um professor por perto? Bom, para a sorte deste aluno, existe sempre alguém por perto (e não sou eu, he he he).

Petróleo, Aborto…eis o : “Momento R do Dia”!

Eis o prof. Hyndman com uma dica sobre dados semanais aqui. Entretanto, veja só que exemplo de incentivo à pesquisa é o norte-americano. Ao invés de esconder as séries, a agência de energia de lá coloca os dados disponíveis para quem quiser ver de forma simples.

Não adianta fazer como no Brasil, em que os dados ficam, muitas vezes, em formatos ilegíveis ou escondidos (honrosas exceções ao IBGE, Banco Central do Brasil e Ipeadata e alguns outros que eu me esqueci de mencionar agora). Mas vamos ao R.

Dados semanais? Como diria Parker Lewis: “not a problem! (if you use R)”

A base de dados que o prof. Hyndman preparou não tem as datas e, aí é que é bacana estudar um pouco de R. Como é que ele constrói a frequência dos dados?

gas <- ts(read.csv("http://robjhyndman.com/data/gasoline.csv", header=FALSE)[,1],
          freq=365.25/7, start=1991+31/7/365.25)

A planilha não tem cabeçalho, por isto o “header=FALSE”. Depois, ele importa a primeira coluna da planilha [,1] e define a frequência como “365.25/7”, começando em “1991+31/7/365.25”. Um ano tem 52 semanas, aproximadamente, e é por isso que se faz 365.25/7 (aproximadamente: 52.17857).

Ainda observando a planilha, vejo que o primeiro dado é o da segunda semana de Fevereiro de 1991 (o valor é: 6,621) lá no site da EIA. Logo, entendo que 1991+31/7/365.25 é a mesma coisa de dizer que estamos iniciando a base de dados em 1991, com dados semanais (semanas de sete dias) em um ano de 52 semanas. Será? Vamos experimentar com outra base de dados, a das buscas no Google Trends de ontem.

new_aborto<-ts(aborto$aborto, freq=365.25/7, start=2004+31/7/365.25)

plot(new_aborto)
h<-decompose(new_aborto)
plot(h)

Vejamos o gráfico da decomposição.

newaborto

Vejam só! Que coisa bonita, heim? Bom, notaram que eu coloquei os códigos do R em um formato mais bonito, né? Sugestão do Cinelli, ao qual agradeço pela gentileza. Agora, descobrir, finalmente, como trabalhar com dados semanais (definir a frequência, sem ter que usar o pacote zoo) é algo que eu devo agradecer ao prof. Hyndman.

Bastou pensar um pouco e fazer duas ou três contas para entender como fazer isto porque ele disponibilizou o script dele. É por isto que eu faço o mesmo aqui, para meus alunos que também são estudantes e para os estudantes de outros locais do país ou do mundo.

E estes ciclos da busca pela palavra “aborto”?

O meu amigo Reginaldo, lá no livro de caras do Zuckerberg, ficou estupefato com isto. Por dois motivos, acho. Primeiro, ele tem duas filhas (que já nasceram na era da internet) e, segundo, ele é economista e adora buscar padrões. Suspeito, claro, que ele está preocupado com as filhas mais do que com os padrões, mas é apenas uma hipótese simplificadora minha, eu sei. Por que será que existe este padrão?

Aqueles que se preocupam com suas filhas, por favor, ajudem meu amigo (vou manter a hipótese de que ele é mais pai do que economista, ok?). Os que gostam de encontrar padrões, aceito comentários. ^_^