Um exemplo bem simples de como aprender a analisar dados em R

É um blog cheio de propaganda, mas vale a pena. Didático e simples. A dica é: copie e cole os comandos e replique lendo o texto. Depois, pense no que você pode fazer com isso (ou seja, com os dados que te interessam). Pense também nas limitações do exemplo (o que poderia ser feito para minimizar seu trabalho).

R é tudo, heim? ^_^

Taleb é muito “pop” mas de pouco conteúdo?

Neste ótimo blog sobre o R (link direto ao post), uma crítica ao Nassim Taleb, já ao final do texto:

Overall, I don’t like Taleb’s The Black Swan. While some of what it has to say (the fallacy of seeing things as a controlled dice game) is very sound, it is riddled with straw man propaganda techniques when he gets on to his critique of statistics. I can only presume he received some exceptionally bad, old fashioned teaching of economics, econometrics and statistics, and didn’t take the trouble to look beyond to the amazing things that have been going on in this field. He writes as though no-one before him had noticed non-normal distributions or outliers. See my answer on Cross-Validated.

A sequência do debate no Cross-Validated é interessante. Aliás, quem tomou o lugar de Taleb na lista dos “economistas pop” é o Thomas Piketty que, talvez, tenha até mais produção científica relevante do que ele.

Uma coisa é uma coisa, outra coisa…

Eis algo que aprendi hoje:

A Confounded effect of X on Y is real, but the association arises because another (omitted) variable causes both X and Y. A new study of X on Y is expected to find that association again.

A False-positive effect of X on Y, in contrast, is not real. The apparent association between X and Y is entirely the result of sampling error. A new study of X on Y is not expected to find an association again.

Por que isto é importante? Faz uma visita no link acima.

O modelo previu 72%

Fazendo as contas, teríamos 368 deputados votando a favor da admissibilidade. Foram 367. I rest my case (but not my briefcase…yet).

Frases como: “econometria não serve para nada”, “pluralismo metodológico pode ser com a Sociologia, mas não com a Estatística”, “o importante é entender o materialismo histórico” perderam sua falsa potência argumentativa. Simplesmente foram enterradas.

A grande vitória desta previsão é lembrar aos estudantes da Ciência Econômica que devemos estudar os fundamentos das ações individuais (ou o comportamento individual não foi importante no que culminou na votação de ontem?) e os métodos estatísticos – chame-se de Econometria se quiser, não me importa, não faz diferença e não é relevante neste contexto – adaptando-os para estudar situações que envolvam trocas (uma lição de James Buchanan).

É só um modelo, claro, é só uma previsão, mas, neste caso, a prova dos pudim, como dizem os americanos, é única: não há outros impeachments sendo julgados no Brasil (ainda bem) de forma a gerar um número grande de observações, etc.

O aluno que estuda a boa Ciência Econômica pode ganhar dinheiro fazendo previsões? Pode. Veja bem, não é apenas a parte estatística da brincadeira: modelos são construídos com base em pressupostos teóricos. Assim, menosprezar as aulas de Microeconomia e achar que vai enriquecer fazendo vinte disciplinas de Cálculo equivale a jogar fora um remo e remar, furiosamente, com o outro: o barco fará belos círculos na lagoa.

Repare que “estudar Microeconomia”, por sua vez, não implica que você apenas faça exercícios envolvendo lagrangianos (ou hamiltonianos). Significa também que não deve desprezar – sempre de forma cética e crítica, claro – notícias citadas como “avanços” na sua área de pesquisa. Surgem várias idéias alternativas de como o ser humano age e somente poucas provam-se úteis para o avanço de nosso conhecimento sobre as ações dos indivíduos (ou grupos).

Agora, vamos em frente. Bom dia.

 

Fraude explica(?)

Resumindo, é o que diz esta notícia. Quem nunca viu aquelas correlações bizarras (portanto, ótimas para chamar a atenção do internauta), no final da tarde, em portais de notícias?

Por isso não se pode pensar o mundo sem Estatística. Não adianta chorar.

p.s. obrigado à leitora, pela oportunidade de me ajudar a manter o humor do título, mas com mais veracidade. ^_^

Marx e Mises na Wikipedia: a comparação entre a língua inglesa e portuguesa

Ok, vamos aos acessos às páginas dos artigos “Karl_Marx” e “Ludwig_von_Mises”, em ambas as línguas, na Wikipedia. Por que alguém buscaria isto? Não sei. Pode ser para conhecer o argumento dos autores ou para buscar contradições em suas idéias. Não faço a menor idéia. Mas sei que os gráficos, normalizados (padronizados) são, para o queridinho dos socialistas, Marx:

marx_enpt

Para o queridinho dos austríacos, o Mises:

mises_enpt

Os dados são diários (sim, eu gerei as séries mensais, mas não as apresento aqui) e o que se vê é que o interesse por Mises, em português, aumentou (isto ocorre, embora o gráfico não seja tão claro, por volta de 2011 (viu porque a série mensal pode ser interessante? ^_^)).

Antes que você comemore ou lamente, veja: a Wikipe(é)dia é apenas uma das fontes de acesso das pessoas. Geralmente, o pessoal usa o Google para fazer a busca e, depois, chega à Wikipedia. Então, estamos, talvez, diante de leitores mais voltados ao estudo (superficial ou não, é um leitor mais “filtrado”, por assim dizer, porque está lendo o verbete de uma enciclopédia).

Neste sentido, o crescimento observado para os acessos da página do autor liberal, em língua portuguesa é um inequívoco (supondo que não existam “bots” trabalhando…) sinal de crescimento do interesse (favorável ou crítico, não importa) pelo austríaco.

Interessante pensar no quanto tempo demorou para o mercado editorial reconhecer este fato óbvio (e eu acho que não demorou muito, mas mais do que eu gostaria). Bom, é isso. Chega de falar de autores que atraem tanto estudiosos sérios como fanáticos seguidores. Quem quiser ver mais, basta ver os meus últimos posts neste blog. Foram todos sobre o mesmo tema (frequência de page views na Wikipedia).

Momento R do Dia – Ainda o aborto na Wikipedia

Lembra do que falei há uns dois ou três posts atrás (na verdade, aqui)? Pois é. Eu estava em busca de um jeito de transformar os dados diários em mensais para ver a sazonalidade das consultas ao verbete “Aborto” citado. Tá, eu sei que talvez esta agregação não seja a melhor, mas, ei, é um exercício de R, né?

Mas, vamos lá: que inferno este negócio de mudar a frequência dos dados, não é não? Não sei você, mas acho isso bem chato. Para minha sorte, veja só, não é que descobri uma função simples e ótima para isto?

Ela está no pacote hydroTSM e se chama daily2monthly. Conferi e funcionou direitinho. Só para você entender, eu havia transferido os dados diários do R para o Excel. Pois, após importá-los para o R novamente, eu apliquei facilmente a função e pedi que a agregação me desse a soma mensal. Fácil.

library(zoo)
base <- read.zoo("C:/Users/cdshi_000/Documents/Meus Documentos/Meus Documentos/aborto1.csv",header=TRUE,sep=",",format = "%m/%d/%Y")
head(base)
summary(base)
plot(base, main="Pageviews do artigo 'Aborto' na Wikipedia em língua portuguesa", ylab="Aborto", xlab="dias")

# Aqui vem a parte legal!
library(hydroTSM)
## Daily to monthly
m <- daily2monthly(base, FUN=sum, na.rm=TRUE)
head(m)
m
plot(m)

# para buscar o padrão sazonal...

library(forecast)
monthplot(m)

Olha aí o dito cujo.
abortosazonal

Interessante, não? Digo, além do fato de termos encontrado um jeito fácil de calcular as somas mensais, ainda conseguimos verificar uma clara mudança no padrão da média mensal das consultas ao verbete “Aborto” da Wikipedia (em língua portuguesa, claro).

Não, não sei se há algum sentido nesta aparente sazonalidade, mas, quem sabe? Comentários são bem-vindos.

P-Valores…novamente e uma breve reflexão sobre a importância de mais estatística no curso de Economia

Existe uma polêmica importante ocorrendo na Ciência, a do p-valor. Não é de hoje que o assunto reaparece aqui e acolá e, na minha opinião, é hora de professores de Estatística de graduação mesmo trazerem este assunto para a sala de aula.

Em Econometria, creio eu, a polêmica ainda não fez muito barulho onde precisa fazer. Existem aí alguns debates, mas a sala de aula continua “blindada” contra esta discussão. Um dos motivos é que a maior parte dos alunos não entende, sequer, o que seja um erro tipo I ou um erro tipo II, quanto mais o p-valor.

A leitura do texto citado no link acima certamente é recomendável, neste aspecto. Aliás, o fato de o artigo usar o R para simulações afim de demonstrar o argumento traz-nos outra lembrança: a de que o R em sala de aula é imprescindível. Não tem mesmo como o aluno não se sentir confortável em estar equipado com um programa destes.

Sobre o R, aliás, eu diria mais: todo curso de graduação de Economia deveria abandonar uma destas matérias inúteis que realmente não o preparam para o mercado de trabalho e substitui-la por um curso básico de R ou de qualquer outra linguagem que venha ancorada em programas abertos e gratuitos como o R, já que isto estimula, a um custo baixo, o auto-estudo e o aumento da produtividade do próprio aluno.

A partir daí, cursos de Estatística ou Econometria (ou Psicometria, Biometria, etc) ficam mais bem fundamentados e o aprendizado facilitado.

Acho que esta é uma idéia que não deveria ser desprezada. As faculdades públicas ou privadas desta selva bem poderiam romper a barreira do corporativismo sindical e do preconceito contra a inovação e brigar por uma liberdade curricular maior neste sentido. Seria ótimo ver alunos mais satisfeitos e identificados com um curso que lhes fornece, realmente, um meio de se sobressair em sala e no mercado.

Muitas vezes falamos de alunos brasileiros que não são pró-ativos relativamente aos que vemos nos EUA, por exemplo. É verdade. Mas o ambiente é distinto. Aqui, no caso do curso de Ciências Econômicas, vamos falar a verdade, existe um “exército” de supostos professores que passam metade do tempo falando mal de métodos quantitativos e barram matérias quantitativas embora façam discursos poéticos sobre a interdisciplinaridade.

Aí, meus caros, não dá. O aluno já é preguiçoso, já veio mimado de casa, encontra uma faculdade com 90% de discussão sobre como a Ciência Econômica é malvada, feia e cruel com os trabalhadores. Como não se transformar em um ser apático?

Marketing…na prática

Eu aconselharia, fortemente, aos que se interessam pelo tema (microeconomia + marketing + estatística) a compra e estudo deste livro. Na verdade, tem até ele em versão liberada no endereço citado.

Aliás…

Como é que o sujeito pode reclamar com o diretor que tem muita matéria, que tem que estudar, mas não que deveria fazer mais cursos interessantes, no qual houvesse a oportunidade de juntar as ferramentas aprendidas em diferentes matérias em uma mais interessante? Eu entendo os incentivos, mas também entendo que há um problema aí.

De qualquer forma, minha percepção é a de que os cursos de Economia que não se reinventarem com maior integração com a Estatística e a Computação, condenarão seus alunos a um futuro sombrio. A flexibilidade, no mercado de trabalho, é uma necessidade de cada um e, também, um fato.

Dá um certo receio imaginar como será o futuro da educação no agregado porque, claro, os alunos espertos vão se virar e farão cursos online, etc. Mas o restante…

As receitas dos grandes ‘chefs’ são mais saudáveis? Viés de seleção antes da pizza da noite

Vou pedir pizza!

Ué, porque não dá para não morrer de rir com isto. A bem da verdade, o debate é mais sério do que minha piada. A repercussão da mídia:

However, although the researchers and the media have speculated on the effect that this may have, this research does not investigate this question and no conclusions can be drawn. For example, we don’t know if these recipes are cooked and eaten frequently, and we don’t know how the nutritional value of these celebrity chefs’ recipes compares with more humble cooks’ recipes.

It is also important to repeat the fact that celebrity chefs who targeted their recipes at people concerned about weight management or who were on a diet were excluded from the study.

Often, TV chefs’ recipes are designed to be ‘event meals’, with the meal being cooked for a special occasion such as a birthday or dinner party. It is unlikely that someone would use a cookbook to cook all their meals.

Acho que vou ficar com minha alimentação, digamos, adequada às minhas preferências mesmo.

20140830_210948

 

Bela foto, né?

Validade interna e externa do modelo

Brincadeiras à parte, eis algo para o leitor pensar: existe problema na amostragem? Usando o que vimos em sala de aula (falo, notadamente, com meus alunos de Econometria III – é, temos Econometria III na nossa graduação, mané!), ou seja, o capítulo 9 da última edição do livro de Stock e Watson, acerca da validade interna e externa de modelos econométricos, o que poderíamos dizer sobre este artigo?

Você pode estar pensando: “mas não vi nenhuma regressão lá”. Sim, não viu. Mas nem por isso os autores deixaram de falar do problema. Em uma seção final, em que falam dos problemas do artigo, eles dizem:

To increase the external validity of our findings we used a populist sampling frame to identify both the recipes and the ready meals. However, the nutritional content of recipes varied substantially between individual recipe books (data available from the author), suggesting that a different selection process may have led to different findings. Selecting books that were bestsellers in the run-up to Christmas may have influenced the selection of recipes, and the transient nature of bestseller charts may challenge the representativeness of the sample. The size of the sample prevented subgroup analyses comparing individual chefs or supermarkets.

Viu só? Viés de seleção é um ponto importante! É, e você achou que a aula de Econometria III só falava da relação entre nota de aluno e tamanho da classe, programas de TV que falam de crimes, lei seca ou porte de armas? Não. Nós temos mais assunto para discutir. Basta pesquisar um pouco e ter alguém que fale de títulos engraçados antes do jantar.

A dica do artigo foi da Mayumi Kanashiro, a quem agradeço, mas vou lá fazer uma pizza agora.

UPDATE: o Enoch corrigiu um impagável erro de português no título. Tão óbvio que já corrigi.

Não confunda urubu com meu louro ou “Econometria não é Estatística e vice-versa, embora…”

Excelente texto do Rob Hyndman sobre as diferenças entre as duas espécies de aves mais exóticas que conheço: os estatísticos e os econometristas.

O mais importante, talvez, seja o otimismo do final do texto. Bom, será que estamos mesmo fechando o hiato entre ambas as abordagens? Meu testemunho pessoal fica no meio do caminho, digamos assim. Desde que comecei a usar o R, tive contato com muito mais ferramentas – e, por conseguinte, com os vocábulos pertinentes – de ambas as áreas. Tem momentos em que a gente fica preocupado se está burro, enlouquecido, bêbado ou, digamos, sob efeito dos três.

Mas é muito importante não se deixar abater. Afinal, alguém precisa fazer pesquisa, né? Como aquele aluno interessado em Economia que leu sobre algum método estatístico novo e que tem potencial vai fazer se não encontrar um professor por perto? Bom, para a sorte deste aluno, existe sempre alguém por perto (e não sou eu, he he he).

Como destruir sua apresentação

É claro que, em seiscentas e vinte e duas páginas, eu iria para as duas últimas, né? Ainda mais se o livro é sobre os prazeres da Estatística. Bem, o minúsculo artigo do prof. Efron se chama Thirteen rules. Do que ele trata? Das treze regras para destruir sua palestra/aula/apresentação.

Reproduzo rindo.

1. Don’t plan too carefully, “improv” is the name of the game with technical talks.
2. Begin by thanking an enormous number of people, including blurry little pictures if possible. It comes across as humility.
3. Waste a lot of time at first on some small point, like the correct spelling of “Chebychev.” Who ever heard of running out of time? (See Rule 13.)
4. An elaborate outline of the talk to come, phrased in terms the audience hasn’t heard yet, really sets the stage, and saves saying “I’m going to present the beginning, the middle, and the end.”
5. Don’t give away your simple motivating example early on. That’s like stepping on your own punchline.
6. A good way to start is with the most general, abstract statement possible.
7. The best notation is the most complete notation — don’t skimp on those subscripts!
8. Blank space on the screen is wasted space. There should be an icon for everything — if you say the word “apple,” an apple should tumble in from the right, etc. And don’t forget to read every word on the screen out loud.
9. Humans are incredibly good at reading tables, so the more rows and columns the better. Statements like “you probably can’t make out these numbers but they are pretty much what I said” are audience confidence builders.
10. Don’t speak too clearly. It isn’t necessary for those in the front row.
11. Go back and forth rapidly between your slides. That’s what God made computers for.
12. Try to get across everything you’ve learned in the past year in the few minutes allotted. These are college grads, right?
13. Oh my, you are running out of time. Don’t skip anything, show every slide even if it’s just for a millisecond. Saying “This is really interesting stuff, I wish I had time for it” will make people grateful for getting “Chebychev” right.

Sensacional, não? Mas a idéia do prof. Efron não é tão original assim. Lembra do falecido George J. Stigler? Ele teve dois de seus livros (na verdade três, mas um era um livro-texto) traduzidos para o português. Um deles, O Intelectual e o Mercado, tem um pequeno capítulo muito similar ao texto acima. Um dia destes a gente fala do bom humor do Stigler.

Mas…o que é mesmo “Estatística”?

Em nove páginas, uma resposta. Eis o resumo do artigo:

One might think that there is a simple answer to the question posed in the title of the form “Statistics is….” Sadly, there is not, although many contemporary statistical authors have attempted to answer the question. This article captures the essence of some of these efforts, setting them in their historical contexts. In the process, we focus on the cross-disciplinary nature of much modern statistical research. This discussion serves as a backdrop to the the aims of the Annual Review of Statistics and its Application, which begins publication with the present volume.

Antes de perguntar ao seu professor o que é Estatística, dá uma lida neste pequeno apanhado de definições. Ah, aparentemente, o journal é aberto, o que é uma ótima notícia, não é?

Momento R do Dia

Na verdade, um texto interessante, que advoga o uso do R Markdown no ensino de Estatística. Talvez os professores de Estatística da nossa faculdade achem interessante. Você consegue acesso ao texto aqui.

Mas o que é R Markdown?

Melhor ver a descrição feita pelo pessoal do RStudio:

R Markdown enables easy authoring of reproducible web reports from R. It offers:

  • Easy creation of web reports from R that can be automatically regenerated whenever underlying code or data changes.
  • A highly accessible syntax (markdown) which lower the barriers to entry for reproducible research.
  • Output of a standalone HTML file (with images embedded directly in the file) that is easy to share using email, Dropbox, or by deploying to a web server.
  • Support for publishing dynamic and interactive web content.

This article includes an overview of how to use R Markdown within RStudio. For more specific details on syntax and implementation, see the R Markdown article.

O que o R Markdown faz? Primeiramente, ele não é um editor de texto. Nem uma planilha, ou um editor de slides. Não há “efeitos e animações”, exceto se você programar algum, claro. O que ele faz é gerar, em um único documento, a união de seus comandos no R e resultados do trabalho.

O artigo citado busca convencer o leitor da superioridade do R Markdown sobre algumas outras opções existentes (poucas, até onde sei), mas não creio que seja preciso argumentar muito (dá uma lida no artigo e veja se concorda comigo). Vantagens e limitações sobre seu uso são discutidas, bem como experiências em duas universidades.

Mas por que os autores se preocupam tanto com esta história de reproduzir resultados? 

Os autores apontam vários problemas ao tentarem avaliar trabalho de alunos porque os mesmos não são reproduzíveis (um problema comum e importante para professores de disciplinas similares como Econometria, Psicometria, etc). Por exemplo, o que há de errado em “copiar-e-colar” resultados do programa econométrico no editor de texto e entregar apenas o resultado? Cito um trecho (negrito por minha conta):

Since the commands used to generate the statistical output are not present in the final presentation, then either: a) the reader must assume that the student has calculated exactly what they say they have calculated, since there is no way of verifying the computation; or b) the grader must rely on the student to also copy-and-paste the commands used to generate the analysis. In either case, it will frequently be the case that the grader will be unable to completely follow the student’s work. Moreover, the issue of reproducibility is relevant not only for a second-party (i.e. a grader), but also for the student. Being able to retrace steps while studying for a fi nal, for example, is a desirable outcome. More concretely, the student may be reminded years later of the analysis, and seek to reapply the same methods in a diff erent setting. Having the commands separated from the results inhibits this process.

Ou seja, como o estudante vai aplicar o que aprendeu (supondo que foi honesto e não copiou o trabalho alheio) se só guardou o trabalho final? Das duas uma: ou copiou de alguém, ou é muito besta de não salvar todos os comandos pois, no final das contas, é isto que o ajudará em aplicações práticas, no futuro.

Não só isso.

Second, the separation of computation from analysis is not logical. The commands in an R script proceed chronologically, such that the analyst will most likely run the entire script all at once. A written report will be read in the same order, and there is no reason why the commands and analysis should not be interwoven.

Outra excelente observação, mas que não requer muitos comentários da minha parte. Mais importante, contudo, talvez seja o problema ético e suas consequências indesejáveis não apenas deste ponto-de-vista (novamente, negrito por minha conta):

Third, the separation of computing from presentation is not necessarily honest. At Smith College, a strict honor code – to which all students are bound – discourages cheating. But it is all too easy for a student copying-and-pasting output from one program to another to fudge a few numbers. Again, the divorce of the computation from the presentation enables the student to edit the content along the way. The possibility of getting “lost in translation” is disastrous for the data analyst. More subtly and less perniciously, the copy-and-paste paradigm enables, and in many cases even encourages, selective reporting.

 

Pois é. A questão científica novamente. No semestre passado, por exemplo, mostrei que a Econometria não é um exercício de “sempre-não-rejeitar-minha-hipótese”, pedindo que fossem estimadas três ou quatro funções consumo para a mesma base de dados. Com todos os problemas (gente que pegou o código e replicou sem pensar, etc), pelo menos um deles evitei: o da seleção de resultados reportados. Nem todos os alunos parecem ter se dado conta (ou apreciado) disto, mas, em algum tempo mais adiante, vão, na prática, sentir os efeitos disto, o que já está ótimo para mim.

Concluindo…

Fortemente sugiro que, se você gostou do que leu, faça um passeio pela página do RStudio que apresenta o R Markdown. Como relatei lá no Nepom, minha monitora de Microeconomia, por exemplo, não usa o R Markdown, mas já faz gráficos interativos como estes. Claro, lá você vai descobrir também o R Pubs, que pode ser útil para seus trabalhos.

Nunca usei o R Markdown em trabalhos de Econometria e talvez o Victor, o monitor da disciplina, ache isto interessante. Digo, talvez os dois monitores de, respectivamente, Econometria I e II, pensem que isto possa ser interessante. Talvez meu colega, professor de Econometria I, também ache, embora ele não use o R, o que não o impede de compartilhar comigo (e, de fato, ele compartilha) a visão de que que resultados de trabalhos estatísticos ou econométricos devem ser reproduzíveis.

Mas, você, usuário de Econometria, deveria considerar alguma forma de registro decente (não aquele amontoado de comandos dos quais você não se lembra depois) dos comandos que usa para gerar resultados para este ou aquele trabalho. Seja ou não com o R Markdown, como os autores ressaltaram, a vantagem para você, no final, é muito maior do que para nós, professores. Afinal, nunca se sabe o dia de amanhã e seu emprego confortável hoje pode dar lugar a um outro no qual você tenha um uso lucrativo de uma vantagem comparativa simples como a de saber usar o R.

Domingo é dia de ir ao cinema

Pois é. E que filme eu gostaria de assistir? Não sei. Mas desconfio que cinema é um bom assunto para um post de economia aplicada (com, sim, dicas de R). Com a ajuda da MPPAJ, eu descobri algumas coisas interessantes sobre o cinema…no Japão.

new new celular3Sou de uma época em que filmes eram vistos, primeiro, no cinema e, muito tempo depois, na televisão. Aí veio o vídeo-cassete e, depois, o DVD (e o Blu-Ray) que diversificaram as opções da indústria de filmes (há filmes que, mesmo que não consigam uma sala para exibição, podem aparecer em DVD e, claro, há as produções exclusivas para a televisão como, por exemplo, o Battlestar Galactica Razor que nunca foi ao cinema).

Aliás, repare como é o processo de mercado (valhei-me, São Hayek!): originalmente, a indústria não tinha uma noção tão precisa de se o vídeo-cassete e o cinema seriam complementares ou substitutos. Claro que a tecnologia era usada para facilitar a vida de quem produzia programas de TV, mas os impactos do vídeo-cassete sobre o cinema não podem ser analisados de forma isolada. Bem, a história da tecnologia dos meios de comunicação nos diz que, penso eu, este é um dos setores mais imprevisíveis.

Na minha época, achávamos, por exemplo, que o vídeo-cassete era uma opção segura de assistir filmes em uma sociedade em que a violência nas ruas começava a aparecer como um problema para os nossos pais.

Você não estava lá…mas eu estava (exceto que era o Brasil, não o Japão)!

Como disse acima, quando surgiram estas inovações – começando com o vídeo-cassete – como é de se imaginar, o mercado de distribuição de filmes sofreu uma boa chacoalhada. Ainda era verdade que filmes saíam primeiro nos cinemas e, só muito depois, em fita. Mas aqueles mais pacientes intertemporalmente podiam escolher consumir o filme depois. Isto foi lá na primeira metade da década dos 80. Sim, leitor(es/as), a taxa de desconto intertemporal é uma variável importante! Em outras palavras, há pessoas mais impacientes (querem consumir logo!) e os pacientes. Aliás, nos EUA, editoras ganham um bom dinheiro lançando livros-texto de capa dura rapidamente e os de capa comum, com algum lapso de tempo: há quem pague mais para ter o livro em capa dura, creia-me.

Mas, voltando aos filmes – hoje é domingo, dia de cinema, não de estudar (para mim, tanto faz, mas…) – claro, o mercado no qual a mudança ocorreu primeiro foi o japonês (onde você acha que inventaram esta história de vídeo-cassete?). Vejamos o que dizem os dados do número de salas de cinema no Japão desde o pós-guerra.

moviesjapan

Percebe-se que a tendência foi de queda – não sem oscilações marcantes – desde o pós-guerra até mais ou menos a década dos 70. Com a chegada do VHS, a tendência de queda não parece ter se alterado, exceto que a queda ficou mais regular (no sentido de não apresentarem oscilações tão fortes). Será que a TV já concorria com o cinema? Duvido um pouco disto porque se há uma relação entre cinema e TV ela não é tão fortemente substituta (lançamentos de filmes não concorrem com a novela das oito ou com filmes antigos). Bom, mas vamos em frente.

O movimento de queda parece sofrer uma reversão nos anos 90. Muitos achavam que o cinema tinha morrido – este era o discurso dos meus amigos, aqui no Brasil – e os mais pessimistas vislumbravam um mundo de pessoas isoladas, vendo filmes em casa até que, ironicamente, surgiu a internet e o suposto “isolamento” foi solapado pelas “ameaças desconhecidas aos nossos filhos” que o novo meio de comunicação trouxe. Em outras palavras, ninguém mais temia o isolamento. Muitos antes pelo contrário. Assim, percebe-se no gráfico um ressurgimento das salas de cinema na terra de Akira Kurosawa. Parece legal, não? Godzilla ressurge?

Mais TV, menos filhos?

Não se esqueça que, além do vídeo-cassete, há que se considerar o público destas salas: por que abrir salas se não há público? Ou seja, como andou a população japonesa no período? Desde o pós-Meiji (era Taishou – 大正) até o período mais recente, você observa uma progressiva diminuição no crescimento da densidade populacional e isto não é porque japoneses estão emigrando: é porque a natalidade está estacionando, se não diminuindo). Veja só o gráfico da densidade…(caso ele não carregue, eis o link)

Densidade populacional

…e o da população (variação anual).

japao_pop

Queda livre depois da década dos 70, não? Em termos de ingressos vendidos, temos o seguinte gráfico:

ingressos

Bem, podemos ver que os dias gloriosos do cinema japonês são passado. O que temos é um renascimento bem mais modesto. Claro, eu não poderia falar destes gráficos sem citar o preço do ingresso e a a MPPAJ tem uma variável que é o “preço médio do ingresso”. Senta que lá vem gráfico!

ingresso

O comportamento do preço médio é de estabilização, não? Eu não deflacionei os dados (hoje é dia de ir ao cinema, né?), mas imagino que a figura geral de estabilização da média do preço não vai mudar muito. Além disso, em uma economia com população em “queda livre”, garantir a audiência do cinema não é algo que se consiga com aumento no preço do ingresso.

Bem, já faz uma hora que estou por aqui e nem sou especialista em mercado cinematográfico. Então, vamos fazer algumas poucas observações finais.

Econometria? Todo cuidado é pouco, e não me refiro à internet ou à TV!

Muito cuidado para não cair na tentação de fazer um diagrama de dispersão entre os ingressos vendidos e o preço médio. Isto não vai te dar uma curva de oferta ou uma curva de demanda. Por que? Porque o número de ingressos vendidos é exatamente o número de ingressos de equilíbrio. Assim, o que temos aí em cima são dados de equilíbrio.

Claro, seria possível tentar obter uma destas curvas indiretamente, usando alguma variável instrumental, mas isto é tema para outro dia.

Conclusão

Ok, eu poderia dizer que os interessados poderiam procurar um pouco de dados de cinema e encontrar alguma coisa para os EUA, mas aí já é ser muito cinéfilo (e eu não sou). Outro tema interessante é verificar a evolução dos filmes japoneses no Brasil. Nos anos 50 (até minha infância cujo período não revelarei…), havia cinemas exclusivos para a colônia lá em São Paulo. Há um bom livro sobre o tema e, bem, talvez eu analise alguns dados daquele livro para ilustrar outro aspecto do R ou da Econometria aqui mas…tudo a seu tempo.

Apêndice – Usando o R

Bom, quanto aos gráficos, vocês notaram que eu mudei o estilo dos mesmos. Usei o R (na verdade, eu praticamente migrei para o RStudio), como sempre. Só para você ter uma idéia dos comandos, eis alguns deles. Os pacotes usados foram lattice latticeExtra. Os dados foram copiados do Excel e colados no RStudio por meio dos seguintes comandos:

base <- read.table(file = “clipboard”, sep = “\t”, header=TRUE)

populacao<-read.table(file=”clipboard”, sep= “\t”, header=TRUE)

Como minha base não estava completa originalmente, você nota que tive que copiar partes da mesma e montá-la em meu ambiente de trabalho (eu tinha os dados de cinema, mas não a população). Segue um exemplo de como converter dados em série de tempo, usando a população.

pop<-ts(populacao,start=(1950),freq=1)
delta_pop<-pop[,2]
delta_male<-pop[,3]
delta_female<-pop[,4]

Para os dados de filmes e ingressos, fiz a mesma coisa:

series <- ts(base, start=c(1955), freq=1)
release_jap<-series[,3]
release_imp<-series[,4]
movie_screens<-series[,2]
total_release<-series[,5]
admissions_thousands<-series[,6]
boxoffice_million_yen<-series[,7]
admission_fee_yen<-series[,8]
jap_distrib_income_million<-series[,9]
non_jap_distrib_income_million<-series[,10]
jap_share<-series[,11]
non_jap_share<-series[,12]

Em seguida, com as bibliotecas citadas, usamos o comando asTheEconomist que gera gráficos como os da revista The Economist (obviamente…). Veja, por exemplo, nosso último gráfico.

asTheEconomist(xyplot(window(admission_fee_yen, start = 1970),
main = “Preço médio do ingresso (Yen)”, sub = “Ano”))

UPDATE

É terrível! Eu abro a caixa de emails e aí encontro uma notícia sobre um dos melhores diretores de cinema japonês…após publicar o post. Bom, já falei dele aqui.