Timeo hominem unius libri? Econometria aplicada a caminho…

Latim?

Expressão de São Tomás de Aquino, eu sei. Significa que um sujeito que conhece muito de um tema é um adversário perigoso. Alguns pensam, incorretamente, que a frase do grande filósofo diz respeito ao livro e, vejam só, saem por aí dizendo que basta ler um único livro para entender do tema.

Os maiores amigos da interpretação equivocada da frase de São Tomás são, paradoxalmente, os educadores (ou, como adoram os supostos jornalistas: os “supostos educadores”). Afinal, como não existe almoço grátis, comprar livro significa diminuir o retorno dos acionistas ou gastar menor em campanhas eleitorais para a reitoria.

De fato, eu concordo que ler 200 livros sobre o mesmo tema é bom, mas demanda muito tempo. Mas eu acredito que o sujeito tem capacidade de saber – melhor do que eu – como alocar seu tempo. Tanto isto é verdade que, quando ele erra na alocação, ele possui inteligência suficiente para criar as desculpas as mais sofisticadas que você já ouviu. Experimente com um aluno qualquer um dia destes: enquanto o povo diz que ele é um coitado burrinho que não consegue se organizar, o mesmo inventa a desculpa mais mirabolante do mundo para justificar sua procrastinação.

Então, no final das contas, cada um sabe o que é melhor para si e não adianta ignorarmos isso. O aprendizado não parte apenas um único livro e o número ótimo de livros depende das preferências do indivíduo e de sua restrição.

Onde estamos? Para onde vamos?

Por que isso tudo? Pelo simples fato de que eu estava lendo dois ótimos livros de Econometria, em busca de algumas explicações sobre estas medidas de outlierspontos influentes. Nunca me aprofundei nisto e sei que econometristas meteram a mão nesta cumbuca há tempos. Assim, para o R, por exemplo, Fox & Weisberg (2011) implementaram várias destas medidas no pacote car. Então, este é um aspecto positivo da tecnologia: temos vários testes e critérios prontos para serem usados.

Entretanto, quando leio Maddala & Lahiri (2009), vejo que estas medidas devem ser vistas com muito cuidado, senão descartadas. Na verdade, em edições anteriores, Maddala já alertava para o fato e isto não mudou nas novas edições em co-autoria com Lahiri.

Ao ler apenas um livro – e ambos são excelentes – você fica com a impressão de que é só sair calculando medidas e critérios. Mas o outro, mais apropriado para o estudante de Econometria, alerta para os problemas no uso indiscriminado de critérios e medidas (quando não aponta erros nos mesmos).

Então, no final do dia, você tem que ler mesmo. Não tem jeito. Tem que ler e ler vários livros, artigos, etc. Não há como ter a produtividade chinesa com elevada qualidade e no patamar necessário para tirarmos este país da lama (ou sua empresa, ou apenas sua vida) sem ler muito.

Dá um olhada no Maddala & Lahiri (2009), no capítulo 10, especificamente. Fox & Weisberg (2011), por sua vez, trata das medidas no capítulo 6. Os dois livros se complementam, mas eu não saberia dos problemas em algumas medidas se não lesse o primeiro.

Dando tempo, eu mostro um exemplo com pontos claramente fora da amostra (influentes? Outliers?) ainda hoje. Já estou olhando para os dados há algum tempo e eles prometem.

Eu acho que vou ler mais este livro de Econometria…

Anúncios

A bolsa em Taiwan, os pontos influentes: mais um “Momento R do Dia”

Sim, hoje é dia de Taiwan. Vamos aproveitar que o Banco Central de Taiwan (sim, ele existe!) disponibiliza alguns dados para brincar um pouco. Vamos olhar para a tabela 28:

28.Stock Market -B.Transactions of Listed Stock and Stock Price – Monthly by Period, Items and Types

taiwan1

Vamos imaginar que eu tenha um bom motivo teórico para imaginar que esta série possa ser estimada pelo modelo abaixo. Vamo ao resultado.

Time series regression with “ts” data:
Start = 1987(7), End = 2014(2)

Call:
dynlm(formula = log(stock_amount) ~ L(log(stock_amount), 1))

Residuals:
Min    1Q            Median      3Q           Max
-0.31752    -0.04385   0.00005    0.04253   0.31459

Coefficients:
Estimate   Std. Error   t value  Pr(>|t|)
(Intercept)                          0.52853   0.13001     4.065   6.05e-05 ***
L(log(stock_amount), 1)   0.94003   0.01488     63.179   < 2e-16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.08254 on 318 degrees of freedom
Multiple R-squared: 0.9262, Adjusted R-squared: 0.926
F-statistic: 3992 on 1 and 318 DF, p-value: < 2.2e-16

Bonito, né? Faz aí seu checklist sobre o que falta fazer com esta regressão. Fez? Ok. Mas vamos explorar outro aspecto do R hoje. Vamos falar um pouco da distância de Cook e de pontos influentes. Deste link temos que:

In statisticsCook’s distance or Cook’s D is a commonly used estimate of the influence of a data point when performing least squares regression analysis.[1] In a practical ordinary least squares analysis, Cook’s distance can be used in several ways: to indicate data points that are particularly worth checking for validity; to indicate regions of the design space where it would be good to be able to obtain more data points. It is named after the American statistician R. Dennis Cook, who introduced the concept in 1977.

Ok, então, estamos diante de um ponto “influente”, na definição de Cook, quando algum ponto “parece” distoar da distribuição dos dados. Não é necessariamente um outlier porque, segundo dizem, para este não existe uma definição precisa. Bom, o problema não desaparece só porque não demos um nome a ele. Confuso? Vamos pesquisar mais. Primeiro, vejamos algumas definições.

The influence of an observation can be thought of in terms of how much the predicted scores for other observations would differ if the observation in question were not included. Cook’s D is a good measure of the influence of an observation and is proportional to the sum of the squared differences between predictions made with all observations in the analysis and predictions made leaving out the observation in question.

Ok, já temos algo. Uma medida de influência, portanto, caso seja retirada da amostra, pode alterar o valor dos coeficientes estimados. Perigoso aqui e em Taiwan. Mais uma definição.

The leverage of an observation is based on how much the observation’s value on the predictor variable differs from the mean of the predictor variable. The greater an observation’s leverage, the more potential it has to be an influential observation. For example, an observation with a value equal to the mean on the predictor variable has no influence on the slope of the regression line regardless of its value on the criterion variable. On the other hand, an observation that is extreme on the predictor variable has the potential to affect the slope greatly.

Mesmo que você não estude estas medidas, ou mesmo que não tenha lido ainda sobre isto, o diagnóstico da regressão, no R, quebra um bom galho neste caso. Após fazer a regressão acima, peço um plot e sou apresentado há vários gráficos de diagnósticos, um deles o que se segue.

cooktaiwan

Repare que temos, no eixo vertical, os resíduos da regressão padronizados e, no eixo horizontal, a medida de leverage (uma aula sobre este e outros gráficos aqui). Repare que não há nenhum ponto nas regiões da distância de Cook (as linhas vermelhas pontilhadas). Há alguns pontos indicados lá. São potencialmente perigosos.

Por meio do pacote car, obtenho uma visualização um pouco distinta.

taiwancook2

As áreas das bolinhas são proporcionais à distância de Cook. Parece que Outubro de 1987 é um ponto a ser estudado com calma.

Ok, já deu para perceber que o Momento R do Dia vai terminar de forma incompleta, né? Não vamos nos aprofundar nesta análise de outliers e afins hoje. Voltaremos ao tema assim que eu tiver tempo de organizar um texto didático sobre o assunto, ok?

Neste meio tempo, você pode ir estudando e, claro, fique com os comandos.

tai<-dynlm(log(stock_amount)~L(log(stock_amount),1))
summary(tai)
plot(tai)
library(car)
influencePlot(tai)

Eu recomendo fortemente que você pesquise sobre o tema e, sim, eu não me preocupei com outros aspectos desta regressão ingênua. Mas, você notou que eu estava pensando em um passeio aleatório por Taiwan quando estimei aquilo lá?

                                           Cook’s D………..uck!