pandemia · R

Dica R do Dia: Lei de Zipf e o Covid-19 (updated)

Um exercicío em R com os dados deste pessoal. O ranking foi construído com base no número de casos confirmados (normalizado por 100 mil habitantes).

Explicando: a cada dia faço o download da planilha. Por exemplo, para o dia 29-03-2020 eu uso o arquivo .csv para gerar o “old3”. Em seguida, tiro o que for “Importados/Indefinidos” e fico apenas com as cidades (“city”). Crio o ranking e estimo a equação de Zipf. No código abaixo, o que fiz para os dias 29 e 30.

library(dplyr)

old3<-read.table("C:/Users/cdshi/OneDrive/Documents/Meus Documentos/covid19-29-03.csv",
header=TRUE, sep=",",na.strings="NA", dec=".", strip.white=TRUE)

old3<-subset(old3, old3$city!="Importados/Indefinidos")

old3<-subset(old3, place_type=="city",
select = c(confirmed_per_100k_inhabitants))

old3 %
mutate(rank = 1:nrow(old3))

m1<- lm(log(old3$rank)~log(old3$confirmed_per_100k_inhabitants))

old2<-read.table("C:/Users/cdshi/OneDrive/Documents/Meus Documentos/covid19-30-03.csv",
header=TRUE, sep=",",na.strings="NA", dec=".", strip.white=TRUE)

old2<-subset(old2, old2$city!="Importados/Indefinidos")
old2<-subset(old2, place_type=="city",
select = c(confirmed_per_100k_inhabitants))

old2 %
mutate(rank = 1:nrow(old2))

m2<-lm(log(old2$rank)~log(old2$confirmed_per_100k_inhabitants))

Assim, até os dados de 07/04 05/04, estimei o mesmo modelo. A tabela, não tão bonita, está aí embaixo (clique para ampliar).

covid_zipf_corrigido

Vale destacar que os nomes das cidades têm problemas com caracteres especiais nos dias 29 e 30 de março. Como fiz meu exercício a partir do dia 01 de abril em diante, estes dois dias foram tentativas de checar os dados anteriores.

O que é curioso é o número de observações no dia 29 de março: 267. Dali em diante, os números vão numa crescente (143 a 230). Parece ser algum problema com a base de dados (seria, por exemplo, por conta da população? Ou os dados teriam sido revisados? Talvez eu não tenha visto algo na base).

Assim, parece fazer sentido observar os dados a partir do dia 30/03 em diante. O que se observa é que o coeficiente de Zipf (teoricamente, “-1”) é razoavelmente constante em “-0.8”.

Note que não tenho a menor pretensão de prever nada – nem acha(ta)r alguma curva de infectados. Minha curiosidade é apenas saber se o número de casos reportados diariamente (normalizados por 100 mil habitantes) segue a lei de Zipf.

Uma interpretação desta estimação pode ser a seguinte: o aumento de 1% no número de confirmados por 100 mil habitantes faz com que a posição do município no ranking suba em 0.8%, em média.

Finalmente, acho ótimo o esforço do pessoal que tem coletado estes dados e espero atualizar minhas estimações diariamente (se nada der errado, claro).

poesia

Não se desanime com a pandemia! A luta pela sobrevivência continua!

Piu avanti!

No te des por vencido, ni aún vencido,
no te sientas esclavo, ni aún esclavo;
trémulo de pavor, piénsate bravo,
y acomete feroz, ya mal herido.

Ten el tesón del clavo enmohecido
que ya viejo y ruin, vuelve a ser clavo;
no la cobarde estupidez del pavo
que amaina su plumaje al primer ruido.

Procede como Dios que nunca llora;
o como Lucifer, que nunca reza;
o como el robledal, cuya grandeza
necesita del agua, y no la implora…

Que muerda y vocifere vengadora,
ya rodando en el polvo, tu cabeza!

Almafuerte, o grande poeta argentino, é que deve nos inspirar agora.

economia dos esportes

Mais juízes, mais viés em campo?

A Economia dos Esportes segue firme. Eis um artigo interessante, na Plos One. O resumo nos faz pensar sobre se não há um número ótimo (ótimo em relação à minimização dos vieses de julgamento) de juízes…

This study is the first to investigate whether the introduction of additional assistant referees in the UEFA Europa League (2009–2010 season) and the UEFA Champions League (2010–2011 season) was associated with lower referee bias in terms of home and “big” team favouritism. To this end, we analyse a unique database with pre- and within-game characteristics of all games in seven recent seasons in these leagues by means of bivariate probit regression models. We find evidence for substantial referee bias before the introduction of additional referees, while no such evidence is  found after the introduction. Furthermore, additional assistants go hand in hand with more yellow cards for both home and away teams. We show that these findings are robust to multiple operationalisations of referee bias and that they are not just picking up a general time evolution towards less referee bias or the effect of parallel reforms.

Mais ainda, provavelmente o árbitro de vídeo deve ter ajudado. ^_^

botao