Uncategorized

Momento R do Dia – organizando dados

Um dos méritos do R é a facilidade em analisar bases de dados. Na prática (não na vida boa da sala de aula, na qual o professor geralmente te dá uma base de dados razoavelmente arrumada), as bases de dados nos chegam de uma forma bem bagunçada.

O exemplo de hoje usa o pacote plyr e o comando ddply. Baseado nestes ótimos exemplos, resolvi fazer uma aplicação com os dados do relatório de transparência do Google (ver post anterior).

Para você ter uma idéia da base, eis uma rápida visualização da mesma.

google_transp

Repare que a mesma está ordenada por países (embora isso não faça a menor diferença para o que farei a seguir). Outra coisa: os dados são semestrais, por isso os dados são sempre em junho ou dezembro. Nosso exemplo usará apenas a variável “Court Orders”, calculando estatísticas básicas para a mesma, por países e anos.

Eis as duas linhas de comando (uma para invocar o pacote e outra para fazer o que estamos nos propondo).

library(plyr)
ddply(dados, c("Period.Ending", "Country"), summarize, 
      N=sum(!is.na(Court.Orders)),
      mean=mean(Court.Orders,na.rm=TRUE),
      sd=sd(Court.Orders,na.rm=TRUE),
      se=sd/sqrt(N))

Bastante sintético, não? Veja o resultado no corte da tela de resultados abaixo.

google_transp2

Legal, não? Na próxima versão da minha apostila (iniciada há algum tempo para um seminário no PPGOM-UFPel, agora com mais co-autores) incluirei um pouco mais de “argamassa” na parte de organização dos dados.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s