Momento R do Dia – Ainda o aborto na Wikipedia

Lembra do que falei há uns dois ou três posts atrás (na verdade, aqui)? Pois é. Eu estava em busca de um jeito de transformar os dados diários em mensais para ver a sazonalidade das consultas ao verbete “Aborto” citado. Tá, eu sei que talvez esta agregação não seja a melhor, mas, ei, é um exercício de R, né?

Mas, vamos lá: que inferno este negócio de mudar a frequência dos dados, não é não? Não sei você, mas acho isso bem chato. Para minha sorte, veja só, não é que descobri uma função simples e ótima para isto?

Ela está no pacote hydroTSM e se chama daily2monthly. Conferi e funcionou direitinho. Só para você entender, eu havia transferido os dados diários do R para o Excel. Pois, após importá-los para o R novamente, eu apliquei facilmente a função e pedi que a agregação me desse a soma mensal. Fácil.

library(zoo)
base <- read.zoo("C:/Users/cdshi_000/Documents/Meus Documentos/Meus Documentos/aborto1.csv",header=TRUE,sep=",",format = "%m/%d/%Y")
head(base)
summary(base)
plot(base, main="Pageviews do artigo 'Aborto' na Wikipedia em língua portuguesa", ylab="Aborto", xlab="dias")

# Aqui vem a parte legal!
library(hydroTSM)
## Daily to monthly
m <- daily2monthly(base, FUN=sum, na.rm=TRUE)
head(m)
m
plot(m)

# para buscar o padrão sazonal...

library(forecast)
monthplot(m)

Olha aí o dito cujo.
abortosazonal

Interessante, não? Digo, além do fato de termos encontrado um jeito fácil de calcular as somas mensais, ainda conseguimos verificar uma clara mudança no padrão da média mensal das consultas ao verbete “Aborto” da Wikipedia (em língua portuguesa, claro).

Não, não sei se há algum sentido nesta aparente sazonalidade, mas, quem sabe? Comentários são bem-vindos.

Aborto na Wikipedia (mais um exercício de R com Wikipedia)

aborto

Há um tempo atrás eu coloquei aqui a série de tempo de Aborto no Google Trends. Claro, a pessoa pode procurar “Aborto” na Wikipedia ou no Google por conta de um trabalho escolar e, claro, também pode procurar porque pensa em fazer um aborto.

No caso da Wikipedia, o que é curioso é o período que vai de 2011 a 2012 (não exatamente nos dois anos completos, mas uma simples passada de olhos no gráfico acima é suficiente para você identificar o padrão anômalo ao qual me refiro).

Pensei em pegar os dias do calendário dos anos analisados em que temos feriados (parece que há algo assim aqui), mas acho que é demais para minha pobre alma. Fica para o leitor interessado (e, sim, será um prazer ver o resultado do trabalho…).

O gráfico acima foi obtido a partir do que aprendi aqui. Ah, sim, antes que você me pergunte, o processo acima não tem raiz unitária e um modelo bobo (sim, eu não me preocupei com nada além da brincadeira) que se ajustou aos dados foi um ARIMA(1, 0, 1), mas a previsão, obviamente, não foi lá aquelas coisas.

Entretanto, a gente começa a sonhar, não? Vai que eu pego um verbete mais interessante como “Honda_Civic“) e ajusto um modelo de previsão para a Wikipedia em língua portuguesa? Depois, comparo isto com as buscas no Google ou com sua frequência no Twitter e faço algumas análises.

Hum, é, realmente, Estatística e Econometria não servem para nada, como dizem alguns alunos. Só para dar dor de cabeça para as pessoas.

p.s. Agradeço meu monitor Victor pela conversa de hoje. Os dois últimos parágrafos foram inspirados em nossa breve troca de palavras sobre temas que, ah sim, não servem para nada.

Petróleo, Aborto…eis o : “Momento R do Dia”!

Eis o prof. Hyndman com uma dica sobre dados semanais aqui. Entretanto, veja só que exemplo de incentivo à pesquisa é o norte-americano. Ao invés de esconder as séries, a agência de energia de lá coloca os dados disponíveis para quem quiser ver de forma simples.

Não adianta fazer como no Brasil, em que os dados ficam, muitas vezes, em formatos ilegíveis ou escondidos (honrosas exceções ao IBGE, Banco Central do Brasil e Ipeadata e alguns outros que eu me esqueci de mencionar agora). Mas vamos ao R.

Dados semanais? Como diria Parker Lewis: “not a problem! (if you use R)”

A base de dados que o prof. Hyndman preparou não tem as datas e, aí é que é bacana estudar um pouco de R. Como é que ele constrói a frequência dos dados?

gas <- ts(read.csv("http://robjhyndman.com/data/gasoline.csv", header=FALSE)[,1],
          freq=365.25/7, start=1991+31/7/365.25)

A planilha não tem cabeçalho, por isto o “header=FALSE”. Depois, ele importa a primeira coluna da planilha [,1] e define a frequência como “365.25/7”, começando em “1991+31/7/365.25”. Um ano tem 52 semanas, aproximadamente, e é por isso que se faz 365.25/7 (aproximadamente: 52.17857).

Ainda observando a planilha, vejo que o primeiro dado é o da segunda semana de Fevereiro de 1991 (o valor é: 6,621) lá no site da EIA. Logo, entendo que 1991+31/7/365.25 é a mesma coisa de dizer que estamos iniciando a base de dados em 1991, com dados semanais (semanas de sete dias) em um ano de 52 semanas. Será? Vamos experimentar com outra base de dados, a das buscas no Google Trends de ontem.

new_aborto<-ts(aborto$aborto, freq=365.25/7, start=2004+31/7/365.25)

plot(new_aborto)
h<-decompose(new_aborto)
plot(h)

Vejamos o gráfico da decomposição.

newaborto

Vejam só! Que coisa bonita, heim? Bom, notaram que eu coloquei os códigos do R em um formato mais bonito, né? Sugestão do Cinelli, ao qual agradeço pela gentileza. Agora, descobrir, finalmente, como trabalhar com dados semanais (definir a frequência, sem ter que usar o pacote zoo) é algo que eu devo agradecer ao prof. Hyndman.

Bastou pensar um pouco e fazer duas ou três contas para entender como fazer isto porque ele disponibilizou o script dele. É por isto que eu faço o mesmo aqui, para meus alunos que também são estudantes e para os estudantes de outros locais do país ou do mundo.

E estes ciclos da busca pela palavra “aborto”?

O meu amigo Reginaldo, lá no livro de caras do Zuckerberg, ficou estupefato com isto. Por dois motivos, acho. Primeiro, ele tem duas filhas (que já nasceram na era da internet) e, segundo, ele é economista e adora buscar padrões. Suspeito, claro, que ele está preocupado com as filhas mais do que com os padrões, mas é apenas uma hipótese simplificadora minha, eu sei. Por que será que existe este padrão?

Aqueles que se preocupam com suas filhas, por favor, ajudem meu amigo (vou manter a hipótese de que ele é mais pai do que economista, ok?). Os que gostam de encontrar padrões, aceito comentários. ^_^

Pós-Carnaval

aborto

Eu sei que você é um moleque responsável e que você não é uma menina boba. Mas a busca pela palavra “aborto” no Google Trends me diz que esta história de aborto nos três primeiros meses não é apenas fruto da imaginação do seu pai.

Acho que um pai mais preocupado tentaria rever suas agendas, desde 2004, para tentar descobrir se, realmente, o pessoal anda passando dos limites no Carnaval, não?

Bem, divirta-se no Carnaval com o Google Trends e, lembre-se: diversão segura, ok?

UPDATE: Momento R do Dia!

O detalhe aqui é a adaptação da data (os dados são semanais) para fazer o gráfico:

library(ggplot2)
aborto <- read.table(file = “clipboard”, sep = “\t”, header=TRUE)
head(aborto)

# transformando data:

aborto$startingDay <- gsub(“^(\\d+-\\d+-\\d+).+”, “\\1”, aborto$Week)

aborto$date <- as.Date(aborto$startingDay)

g <- ggplot(aborto, aes(date, as.numeric(aborto))) + geom_line()
print(g)

library(scales)
g <- g + scale_x_date(breaks=date_breaks(width=”1 year”),
labels=date_format(“%Y”))

Resultado:

aborto_R_googletrends

O mau argumento

Este, horroroso.

Ainda dia desses, em uma reportagem de TV, vi uma moça pró-aborto, de alguma dessas ONGs “feministas pra cacete” dizendo que nos últimos anos, alguns milhões de mulheres cometeram abortos, logo, não poderia ser crime visto que seria uma sandice termos 2 milhões de mulheres presas. Achei sensacional o argumento, com uma lógica espetacular: Se muita gente comete um crime, o mesmo deve deixar de ser crime. Uma pena que nossos legisladores não sigam a lógica da mulher que vi na TV pois, com o andar da carruagem, em breve o Brasil seria o primeiro país do mundo sem nenhum criminoso.

Ângelo tá certíssimo no que diz respeito à lógica. Se o argumento da dona parou por aí, realmente é difícil falar de mudanças institucionais sérias. O aborto envolve uma das mais difíceis discussões sobre direitos de propriedade. O mais legal é que estas “feministas” (ou, como gosta a imprensa, “supostas feministas”) sempre são não-liberais e ferrenhas defensoras do direito privado de abortar. Em outras palavras: são exatamente iguais aos inimigos que tanto criticam…

Feministas não precisam ser mal-assessoradas com estes argumentos ruins. Basta um pouco de leitura liberal para iluminar suas tristes vidas tão cheias de argumentos sofríveis…

Aborto e violência

Se o aborto já é praticado há anos no Brasil, será que realmente a tese de Levitt se aplica por aqui? Depois do escândalo da UnB eu tenho até receio em divulgar dados de pesquisas de lá, mas vamos supor que os pesquisadores não foram tolhidos em sua liberdade científica. Assim:

O trabalho, obtido pelo Estado com exclusividade, foi realizado pela Universidade de Brasília (UnB) e pela Universidade Estadual do Rio (UERJ) e tem apoio do Ministério da Saúde e financiamento da Organização Pan-Americana de Saúde (Opas).

“Os dados mostram que não é a mulher considerada leviana que aborta. É uma mulher comum, que vive uma relação estável e que já tem um filho”, afirma uma das autoras do estudo, a antropóloga Débora Diniz, da UnB. “É depois de ser mãe, de saber o que é a maternidade, que ela decide com o parceiro pelo aborto. É uma decisão responsável e baseada na experiência”, complementa.

Débora explica que o objetivo da pesquisa foi justamente reunir todos os dados existentes sobre o aborto no Brasil, colhidos por pesquisadores das mais variadas vertentes, contrários e favoráveis à descriminação, para permitir que o tema seja debatido com base em fatos e não em suposições.

“Muita gente opina sobre o aborto sem ter dados, com base apenas em crenças morais ou opiniões pessoais. É comum ouvir dizer, por exemplo, que a mulher que aborta se arrepende e sofre de problemas mentais. Isso não foi encontrado em nenhuma pesquisa”, afirma.

Talvez o problema com a tese de Levitt, no Brasil, esteja na dificuldade que temos em isolar os efeitos do aborto entre as tais “mulheres levianas” e as outras, controlando por classe de renda. Dizem por aí que já há estudos sobre o tema o que me faz pensar sobre esta necessidade de se coletar dados. Se já fizeram estudos sobre o aborto e a violência no Brasil (e se não estamos a falar de proxies), então que novidades ou aperfeiçoamentos existem nestes dados novos?

Curioso mesmo estou é para ver o dito estudo.