Uncategorized

Função de Correlação Cruzada e a Galinha Pintadinha (Pópópó!)

Como é que é? Função de Correlação Cruzada? Quem aprendeu modelos ARIMA na graduação não deve ter ouvido falar dela. Só quando a turma acompanha a literatura, adianta-se ao material e aprofunda nos estudos é que o conceito surge. Ou seja, não é para todas as turmas que você tem a oportunidade de conversar sobre o tema (eventualmente, ex-alunos que leram o livro do Walter Enders saberão que o conceito está lá, explicado, em algum lugar…).

A melhor explicação rápida que já vi é a deste post. Citando:

The CCF is defined as the set of correlations (height of the vertical line segments in Fig. 2) between two time series xt+h and yt for lags h=0,±1,±2,. A negative value for h represents a correlation between the x-series at a time before t and the y-series at time t. If, for example, the lag h=3, then the cross correlation value would give the correlation between xt3 and yt. Negative line segments correspond to events that are anti-correlated.

The CCF helps to identify lags of xt that could be predictors of the yt series.

  1. When h<0 (left side of plots in Fig. 2), x leads y.

  2. When h>0 (right side of plots in Fig. 2), x lags y.

Pois é. Você entendeu. É fácil de fazer algo rápido.

Bom, se você leu o texto deve ter notado que o autor analisa temperaturas em algumas cidades da Austrália. Eu, como me preocupo com problemas mais relevantes para a filosofia, gosto de pensar em questões como esta (baseado no original de 1988).

Pois é. Ovo ou galinha? Quem vem primeiro? A pergunta geralmente é estudada com testes de causalidade de Granger (leia o artigo, ora bolas…), mas podemos dar uma olhada nas correlações cruzadas (estou olhando os níveis das séries: número de galinhas e mil dúzias de ovos). Os dados são relativos ao Brasil (a fonte é o IBGE e as séries foram construídas a partir de uma amostra original mensal no intervalo delimitado entre Jan/1987 e Dez/2013).

ovos6

Repare que há uma simetria e, portanto, basta olhar para um dos dois gráficos. A maior correlação cruzada ocorre em h = 0, que mostraria que não há precedência temporal de uma série sobre a outra. Aparentemente, as duas caminham juntas (a correlação é contemporânea, nem defasada, nem antecipada).

Acha que é assim em qualquer amostra? Não para os EUA (dados anuais, 1930-1983).

ovos_eua

Neste caso, a correlação é negativa e olhamos para o valor mínimo. em h = 13 e 14. Há precedência temporal entre as séries? Há e o pessoal que gosta do teste de Granger já deve estar retornando ao início deste texto. Para ser mais preciso, a gente tinha que ter os dados na mesma frequência. Aí a brincadeira ficaria mais interessante. Mas já é tarde e meus leitores (boa parte deles) está estudando para as provas. Então, fica para outro dia.

Os comandos em R são fáceis. Você pode replicar o que o blogueiro citado fez. É exatamente o que eu fiz aqui. Vou ajudar você com a base de dados original (embora os dados não sejam exatamente os mesmos, como se elucida aqui).

library(lmtest)
data(ChickEgg)
summary(ChickEgg)
plot(ChickEgg)
?ChickEgg
series<-ts(ChickEgg, start=c(1930), freq=1)
plot(series)
head(series)
chicken<-series[,c(1)]
eggs<-series[,c(2)]
head(chicken)
ccf(chicken,eggs, plot=FALSE)
pm<-ccf(eggs,chicken)
max.pmc <- max(pm$acf)
max.pmc
pm$lag[which(pm$acf > max.pmc-0.01 & pm$acf < max.pmc+0.01)]

Ok, não fizemos o teste de causalidade de Granger hoje, mas as dicas ao longo deste post já são suficientes para você tentar em casa, sem a supervisão de adultos.

Faz um teste de causalidade de Granger, faz! Pópópó!
Anúncios
Uncategorized

Sem mais…

Como nosso leitor mediano não tem problemas com o inglês, apenas reproduzo:

  1. R is the highest paid IT skill (Dice.com survey, January 2014)
  2. R most-used data science language after SQL (O’Reilly survey, January 2014)
  3. R is used by 70% of data miners (Rexer survey, October 2013)
  4. R is #15 of all programming languages (RedMonk language rankings, January 2014)
  5. R growing faster than any other data science language (KDNuggets survey, August 2013)
  6. R is the #1 Google Search for Advanced Analytics software (Google Trends, March 2014)
  7. R has more than 2 million users worldwide (Oracle estimate, February 2012)

Obviamente, não bastam estes motivos para se usar o R. Mas eu diria que está cada vez mais difícil se esconder do uso do mesmo. Cedo ou tarde, o aluno de Econometria vai se deparar com a verdade e aí o que vai contar será a teoria apre(e)ndida, o conhecimento das ferramentas (e não a simples “decoreba”) e o seu uso de forma eficiente.

Nesta hora é que o R chega como melhor opção aos que almejam bons empregos.

Uncategorized

História Econômica…mesmo!

Pois é. Há quem curta o onanismo intelectual do debate das “doutrinas” em história econômica. Algo como: “esqueça da realidade, vamos debater as ‘grandes questões’ (na minha definição) e ‘mudar o marco metodológico’ (preferencialmente conforme meus gostos) e blá-blá-blá.

Eu, humildemente, gosto de trabalhos interessante, com um viés pelo levantamento de dados e testes de hipóteses. Sempre fui mais, como direi, Popperiano (ou algo assim). Quando me deparo com artigos interessantes, sou obrigado a divulgá-los. Então, que tal levantar dados desde o século XIII para a Inglaterra e discutir o mercado de trabalho? É, tem um debate sobre isto, embora você possa não ter ouvido falar do mesmo.

Talvez você prefira falar da Península Ibérica. Ok, que tal este debate sobre os impactos econômicos da Reconquista sobre as cidades? Não tem como dizer que se gosta de história brasileira sem falar um pouco da história da península, não é? Aquele ótimo livro do casal Wehling sobre Brasil colonial destaca a importância de se estudar a influência das instituições ibéricas sobre a nossa história e, bem, você sabe que este é um tema importante (veja a minha video-aula logo aí embaixo).

Mas talvez o mais interessante artigo do qual tive notícia nesta manhã seja este cujo resumo reproduzo:

In this paper we introduce a new source of data to economic history: palynological data, i.e. information about pollen grains which are preserved in bottom sediments of various water basins. We discuss how this data is collected and how it should be interpreted; develop new methods for aggregating this information into regional trends in agricultural output; construct an extensive data set with a large number of pollen sites from Central Europe; and use our methods to study the economic history of Greater Poland, Lesser Poland, Bohemia, Brandenburg, and Lower Saxony since the first century AD.

Pois é. Nada como uma radiante manhã em termos de novidades em História.