Uncategorized

Mais Bolsa-Família e Votos: o que nos mostram as correlações? (um debate sem fim)

Hoje, mais cedo, comecei a olhar para os dados do Bolsa-Família e Votos no 1o turno nos três candidatos (cortesia do Carlos Cinelli). Em seu ótimo post, ele concluiu:

(…) será que a correlação se mantém dentro de cada UF? Por exemplo, Aécio ganhou em SP, SC e MT. Nesses estados, também houve correlação negativa do BF para o candidato tucano?

Aparentemente, sim, conforme pode ser visto no gráfico abaixo. E a separação por estado também indica que a correlação do BF com votos para Marina foi negativa em grande parte das UF’s. Um estado que chama a atenção é Minas Gerais, em que estas relações se parecem bem acentuadas.

Resolvi olhar melhor a dispersão dos dados, mesmo sem dividir por estados. Entretanto, vou usar estes diagramas de dispersão que nos fornecem uma informação adicional que é a concentração de pontos na dispersão.

A seguir, os gráficos para Marina, Dilma e Aécio, respectivamente.

marinabfvotos

 

 

dilmabfvotosaeciobfvotos

Só eu suspeito que existe um padrão interessante no caso do diagrama de dispersão do candidato Aécio Neves e no de Rousseff? Parecem duas distribuições bimodais? No caso do Aécio Neves, parece mais ainda do que no caso de Rousseff? Dá esta impressão, mas falo apenas por um simples exercício de eyeballmetrics.

Mais interessante é que, no caso de Marina Silva, não parece haver qualquer conexão clara entre bolsa-família e votos, no agregado. O que será que estamos observando aí nestes gráficos? Palpites?

Uncategorized

Bolsa-Família e Votos

Apenas brincando com os dados que o Cinelli disponibilizoubolsafam

Falei no livro de caras sobre o artigo que fiz com o prof. Nakabashi, o prof. Felipe e a doutoranda Ana (aceito para publicação na Análise Econômica sobre o papel do Bolsa-Família na eleição da presidente Rousseff, em 2010, e ele pode ser lido aqui).

Agora, com esta eleição, temos mais dados para estudar. Espero que mais gente se interesse em estudar o tema…

Uncategorized

Outra dica de R e uma observação

O Cinelli, como sempre, dá-nos uma ótima dica de R. Desta vez, o assunto é a PNAD. Devemos agradecer ao Flavio Barros por isso. Ele, aliás, inicia seu texto nos lembrando do problema recente pelo qual passou o IBGE.

Com o erro recente na divulgação dos resultados da PNAD 2013, o nome do IBGE e também os resultados dessa pesquisa, chegaram na grande mídia de um forma muito negativa. Ainda assim, a maioria das pessoas desconhece o que é a PNAD, como esses dados são obtidos e como eles podem ser baixados e utilizados. Neste post vou fornecer uma breve explicação do que é PNAD, como esses dados são distribuídos (na forma de microdados) e como você pode facilmente obtê-los e utiliza-los a partir de ferramentas gratuitas como o R.

Veja como são as coisas. Como foi descoberto o erro da PNAD? Segundo consta, alguns pesquisadores estranharam os dados (gente que se especializou em certos assuntos, como nos ensina Adam Smith, pega estas coisas bem rápido). O uso do R, neste sentido, e a transparência na divulgação dos dados – que é uma característica do IBGE, vale dizer – só ajudam neste processo.

Ao longo da semana eu vi, com tristeza, o governo tentar fazer disso um ponto na campanha eleitoral. Um desrespeito, na minha opinião, ao trabalho de gente séria que existe no setor público, notadamente no IBGE. A imprensa, inclusive, tem sido muito tímida, quase medrosa, na cobertura dos fatos que lá se desenrolam desde então. Há um problema sério quando o governo tenta intimidar pesquisadores por meios burocráticos e isso sinaliza para uma argentinização indesejável em órgãos geradores de dados públicos tão importantes para análises de políticas públicas. Gostaria de ver mais discussões sobre isto na blogosfera.

Por outro lado, novamente, como é maravilhosa a liberdade e o seu bom uso por parte dos indivíduos. Caso existam erros, pesquisadores poderão encontrar rapidamente o erro e ajudar a corrigí-los se os dados são disponibilizados sem burocracias, sem véus autoritários, etc. Esta é a tecnologia de auto-correção que a própria internet e os avanços computacionais nos permitem hoje em dia.

Fica aqui meu desejo de boa sorte às pessoas não apenas do IBGE, mas de todos os órgãos públicos (em todos os níveis da federação e também em qualquer lugar do mundo), que valorizam seus currículos e não querem ser conhecidas por aí como funcionários de órgãos aparelhados que fazem maquiagem de dados, escondem pesquisas, etc. Torço por vocês, amigos!

Uncategorized

Petróleo, Aborto…eis o : “Momento R do Dia”!

Eis o prof. Hyndman com uma dica sobre dados semanais aqui. Entretanto, veja só que exemplo de incentivo à pesquisa é o norte-americano. Ao invés de esconder as séries, a agência de energia de lá coloca os dados disponíveis para quem quiser ver de forma simples.

Não adianta fazer como no Brasil, em que os dados ficam, muitas vezes, em formatos ilegíveis ou escondidos (honrosas exceções ao IBGE, Banco Central do Brasil e Ipeadata e alguns outros que eu me esqueci de mencionar agora). Mas vamos ao R.

Dados semanais? Como diria Parker Lewis: “not a problem! (if you use R)”

A base de dados que o prof. Hyndman preparou não tem as datas e, aí é que é bacana estudar um pouco de R. Como é que ele constrói a frequência dos dados?

gas <- ts(read.csv("http://robjhyndman.com/data/gasoline.csv", header=FALSE)[,1],
          freq=365.25/7, start=1991+31/7/365.25)

A planilha não tem cabeçalho, por isto o “header=FALSE”. Depois, ele importa a primeira coluna da planilha [,1] e define a frequência como “365.25/7”, começando em “1991+31/7/365.25”. Um ano tem 52 semanas, aproximadamente, e é por isso que se faz 365.25/7 (aproximadamente: 52.17857).

Ainda observando a planilha, vejo que o primeiro dado é o da segunda semana de Fevereiro de 1991 (o valor é: 6,621) lá no site da EIA. Logo, entendo que 1991+31/7/365.25 é a mesma coisa de dizer que estamos iniciando a base de dados em 1991, com dados semanais (semanas de sete dias) em um ano de 52 semanas. Será? Vamos experimentar com outra base de dados, a das buscas no Google Trends de ontem.

new_aborto<-ts(aborto$aborto, freq=365.25/7, start=2004+31/7/365.25)

plot(new_aborto)
h<-decompose(new_aborto)
plot(h)

Vejamos o gráfico da decomposição.

newaborto

Vejam só! Que coisa bonita, heim? Bom, notaram que eu coloquei os códigos do R em um formato mais bonito, né? Sugestão do Cinelli, ao qual agradeço pela gentileza. Agora, descobrir, finalmente, como trabalhar com dados semanais (definir a frequência, sem ter que usar o pacote zoo) é algo que eu devo agradecer ao prof. Hyndman.

Bastou pensar um pouco e fazer duas ou três contas para entender como fazer isto porque ele disponibilizou o script dele. É por isto que eu faço o mesmo aqui, para meus alunos que também são estudantes e para os estudantes de outros locais do país ou do mundo.

E estes ciclos da busca pela palavra “aborto”?

O meu amigo Reginaldo, lá no livro de caras do Zuckerberg, ficou estupefato com isto. Por dois motivos, acho. Primeiro, ele tem duas filhas (que já nasceram na era da internet) e, segundo, ele é economista e adora buscar padrões. Suspeito, claro, que ele está preocupado com as filhas mais do que com os padrões, mas é apenas uma hipótese simplificadora minha, eu sei. Por que será que existe este padrão?

Aqueles que se preocupam com suas filhas, por favor, ajudem meu amigo (vou manter a hipótese de que ele é mais pai do que economista, ok?). Os que gostam de encontrar padrões, aceito comentários. ^_^

Uncategorized

Preços de imóveis: versão Brasília

O Cinelli continua com o excelente trabalho – em R, não? – de pesquisa sobre preços de imóveis em Brasília. Digo, não sei se ele usa apenas o R, mas sei que ele certamente está a maximizar suas chances de emprego em boas empresas.

Outro dia eu falei de preços de imóveis por aqui, mas o Cinelli está com uma análise bem mais detalhada (pena que, por enquanto, só Brasília). Acompanho com muita curiosidade.