Arquivo da tag: Estatística

A população brasileira

Rookie

A reforma da previdência é um assunto quente no momento. Um governo desestabilizado deve atacar uma importante reforma que leva em conta a situação política, econômica e demográfica brasileira. Não tenho competência para atacar a parte da economia, não acho que alguém tenha competência para entender qualquer coisa de política atualmente, então dedico um post às mudanças demográficas brasileiras dos últimos 17 anos, e futuros dois.

A evolução da população brasileira é fácil de achar no site do IBGE, mas não é fácil visualizar. Para isso, decidi afinar minhas habilidades em JavaScript e construir um gráfico interativo para facilitar a compreensão. Esse é o resultado:

View in percentage


Os dados usados são os reais até 2013 e projetados até 2020. Basta clicar em alguma barra, ou em alguma legenda, para visualizar uma faixa de idade com mais detalhe. Coloco aqui uma versão maior desse gráfico. Nessa página também disponibilizo o código e os dados; você pode fazer seu próprio gráfico interativo em casa, basta trocar os dados de entrada e ele deve, sem reclamar muito, montar-se sozinho.

O post de hoje é sem análise, o gráfico deve falar por si.

Os ônibus de Cuernavaca

Geek

Para o post de hoje, vamos ao México. Ele será um pouco mais sofisticado que meus posts habituais, mas acho que esse blog sentia falta de uma matemática um pouquinho mais pesada. Vou tentar manter Geek, sem passar ao Hardcore, prometo que, lendo com paciência, é um assunto fascinante.

A cidade de Cuernava, um pouco ao sul da Cidade do México, é um lugar muito especial para a física estatística e para quem gosta de matrizes aleatórias. Com um pouco mais que 300.000 habitantes, essa cidade apresenta um urbanismo estranho: ela é construída entre duas grandes rodovias que levam à capital do país e, entre elas, possui uma grande avenida central. Suas demais ruas, como os ramos de uma folha, se espalham entre as rodovias ao redor da avenida. Nessa avenida principal passa a linha 4 de ônibus de Cuernavaca, foco de nosso maior interesse, que possui propriedades fascinantes.

A linha 4 não é regulada por um sistema unificado de transportes, cada condutor de ônibus em Cuernavaca é dono de seu ônibus, como se fosse apenas um táxi grande, e quer, certamente maximizar seus lucros. Se, no entanto, dois ônibus estiverem muito próximos, o que está logo atrás sofrerá prejuízo financeiro; para evitar essa situação, os motoristas de Cuernavaca chegam a pagar “olheiros” posicionados estrategicamente na avenida para contar ao motoristas há quanto tempo o outro ônibus passou para que, assim, eles possam acelerar ou diminuir o passo, evitando encontrar o ônibus seguinte e o anterior. Diminuir a velocidade demais também não é bom pois, não apenas isso seria um serviço profundamente mal-prestado, mas ele correria o risco de ser ultrapassado pelo ônibus que o precede.

Dois físicos visitaram Cuernavaca em 2000 e ficaram fascinados com as características desse sistema de transporte. Durante um mês, eles coletaram dados de chegada e saída dos ônibus da estação central da linha 4 de Cuernavaca. Seus resultados foram relatados em um intrigante artigo, reproduzo o gráfico:

cuernavaca

O valor que interessou os físicos foi: dada a chegada de um ônibus, quanto tempo o próximo demorava? Eles armazenaram esses dados em um belo histograma que, propriamente normalizado, resultou nos dados marcados com uma cruz no gráfico acima. As barras e a linha, que coincidem quase perfeitamente com os dados, são resultados teóricos de um modelo que os físicos suspeitaram ter a ver com o problema.

Se você tomar uma matriz hermitiana (A=A^\dagger) e colocar como entradas nela valores aleatórios tirados de uma distribuição gaussiana complexa, terá o que chamados de uma matriz do GUE, Gaussian Unitary Ensemble. Falei um pouco sobre matrizes gaussianas em um post anterior. Se as entradas da matriz são gaussianas, seus autovalores, como vocês devem suspeitar, possuem uma densidade de probabilidade bem diferente e, em particular, apresentam um fenômeno de repulsão logarítmica, ou seja, se os autovalores fossem partículas, elas se repeliriam com uma força que poderia ser interpretada como um potencial logarítmico na distância entre as partículas: V(x) \propto \log|x_i-x_j|. Em português, se você encontra um autovalor de uma matriz gaussiana em um ponto, é extremamente improvável encontrar outro muito perto dele. Se você estudar a estatística da distância entre os autovalores: tirar várias matrizes gaussianas aleatoriamente, diagonalizar, extrair autovalores, estudar a distância entre um autovalor e seu vizinho, fazer um histograma, normalizar corretamente e plotar em um gráfico, a teoria de matrizes aleatórias diz que você terá, quanto maior for a matriz, uma função cada vez mais próxima de \frac{32}{\pi} s^2 e^{-4s^2/\pi}.

Surpreendentemente, essa função é a linha plotada no gráfico acima, encaixando-se com perfeição nos dados. As barras são resultados de simulações feitas com matrizes gaussianas, colando mais uma vez com o resultado dos ônibus. O fato de os motoristas tomarem cuidado para não se aproximarem demais de seus vizinhos fazia o papel da repulsão logarítmica dos autovalores, e fazia com que os ônibus de Cuernavaca se comportassem como os autovalores de uma matriz gaussiana complexa.

O artigo segue com mais detalhes para comprovar seu argumento, mas aquilo não era o suficiente. Faltava criar um modelo para os ônibus que permitisse deduzir esse fato, que não é nada óbvio. Isso foi feito em um artigo seguinte, modelizando com carinho essa rede de transportes. Como queremos simplificar para compreender, o modelo pode não parecer muito realista; mas é isso que físico fazem: simplificam e tentam, na simplicidade, perceber a emergência de um fenômeno complexo e suas causas. Vamos aos ônibus.

Como o acelerar, desacelerar, parar, desabastecer-se e abastecer-se de passageiros é um processo complicado e imprevisível, precisamos simplificar drasticamente para que a matemática do modelo seja tratável. Ao invés de andar o caminho entre um ponto e outro, tomemos um modelo com duas hipóteses:

  • Os ônibus ficam parados um tempo aleatório em cada ponto. Passado esse tempo, são “teleportados” ao próximo ponto.
  • Dois ônibus jamais se encontram. Enquanto um está em um ponto, o próximo não pode teleportar a ele.

Com essas duas regras, podemos simular o comportamento desses ônibus em uma linha. Reproduzo o gráfico do artigo novamente:

buses_cuernavacaEsse modelo, depois de algumas contas complicadas, nos conduz ao que queríamos provar: a distância entre os ônibus será dada pela mesma fórmula da distância entre valores próprios de uma matriz gaussiana. Claro, fizemos o modelo para que isso desse certo, e ficamos felizes que, apesar de simples, ele reproduz elementos importantes da realidade.

Não é um caso isolado. Os ônibus de Cuernavaca são um exemplo curioso e interessante do fenômeno de universalidade em matrizes aleatórias. Em uma analogia, é como se em sistemas complexos houvesse uma versão do teoria central do limite para processos altamente correlacionados. Não foi por acaso que Wigner, Dyson e Mehta escolheram matrizes aleatórias como tentativa de modelizar a interação forte no núcleo atômico, eles desconfiavam, com razão, que um processo estatístico acontecia em sistemas com um número suficientemente elevado de elementos. Tal processo, como toda boa estatística, mata as flutuações aberrantes e preserva as características extensivas do modelo.

Ainda não solucionamos o mistério da universalidade. A teoria de matrizes aleatórias aparece em contextos demais, não conseguimos ainda desvendar a razão disso. Em caos quântico há conjecturas fundamentais a respeito, em teoria dos números também. Essa emergência pode ser coincidência, ou pode ser manifestações de um teorema central do limite para variáveis fortemente acopladas. Não sabemos ainda, mas buscamos. Meu trabalho atual é um pouco sobre isso, estudar como é a transição de um sistema fortemente correlacionado, como os ônibus de Cuernavaca, a um sistema de variáveis independentes, como os ônibus de São Paulo. Essa mudança de comportamento é profundamente interessante, ocorre em diversos fenômenos físicos e é mediada pelas mais variadas formas de interação. Mas um novo post sobre meu trabalho fica para outro dia.

No grande tomo The Oxford Handbook of Random Matrix Theory, Freeman Dyson escreve no prefácio, após comentar sobre os ônibus de Cuernavaca:

“O benefício do sistema autorregulatório dos ônibus à população é medido pela variável R, a razão entre o tempo de espera médio de um passageiro e o tempo médio entre os ônibus. O melhor valor possível de R é 0,5, quando a distância entre os ônibus é exatamente igual. Se os ônibus não são correlacionados, teremos R=1. Em Cuernavaca, como eles se comportam como autovalores de uma matriz gaussiana, temos R=3\pi / 16=0.589, muito mais perto da situação ideal que da situação independente. Não sou capaz de determinar se as aplicações de matrizes aleatórias no mercado financeiro, como as descritas no capítulo 40 deste livro por Bouchaud e Potters, geram algum benefício comparável. Quando um especialista em finanças me diz que algum pedaço de feitiçaria financeira certamente irá beneficiar a humanidade, sou levado a acreditar que um motorista de ônibus de Cuernavaca faria um trabalho melhor.”

 

Top na balada

Geek Rookie

No post de hoje, vamos resolver um problema grave, clássico e profundo: como escolher o melhor namorado ou namorada para casar, ou como escolher o melhor garoto ou garota na balada para levar para casa aquela noite. Não são problemas simples, mas, como a maior parte dos dilemas pessoais, usando frieza, crueldade e fechando os olhos para os reais problemas sociais envolvidos, podemos tirar conclusões bem interessantes. No post de hoje, vamos deduzir a estratégia para maximizar suas chances de, em uma noite, levar o melhor parceiro possível para seu quarto mostrar sua coleção de discos do Elvis.

Deixo apenas registrado que se você está buscando referências sérias nesse blog sobre como se dar bem em uma balada, deve estar realmente desesperado. Continuemos.

O problema se apresenta da seguinte forma: você pegará na noite de hoje um número N de pessoas. Dentre essas pessoas, você estabelece um ranking de qualidade, seu objetivo é levar a melhor delas para casa porque, convenhamos, você já passou da idade de ficar só dando beijinho em balada. Você encontra uma pessoa, corteja, afeiçoa-se e tem duas opções: ou escolhe essa para levar para casa, ou rejeita. O problema é claro: você corre o risco de estar rejeitando a melhor dentre as N. Supondo que você e a pessoa têm um pingo de dignidade, não poderá voltar atrás nessa decisão! Nessa lógica, qual a melhor estratégia para maximizar suas chances de escolher de fato a melhor dentre as N possíveis?

Se achou as contas a seguir chatas e complicadas, tudo bem, eu entendo; você pode pular para o final do post para descobrir a melhor estratégia.

A natureza do seu dilema é a informação incompleta. Cortejando a pessoa número n, você tem apenas o ranking dela em relação às que já viu, não tem a menor ideia de como ela se compara às que virão. A primeira pessoa sempre será a melhor até então (e a pior), não parece uma boa estratégia aceitar a primeira que aparece, porque a noite é longa e promete. Por outro lado, se você encontrar a melhor até então na penúltima pessoa, as chances são baixas de encontrar a melhor de todas na última, desprezar a melhor na penúltima parece também uma estratégia ruim. Entre uma recusa quase certeira da primeira e uma aceitação quase certa da penúltima, deve haver algum ponto intermediário em que a estratégia fica a melhor possível.

Vamos calcular esse ponto e determinar qual a melhor estratégia para o problema. Para isso, vamos primeiro modelizar o problema de forma precisa:

  • Você estima que cortejará N pessoas até o final da noite.
  • Uma vez rejeitando a pessoa, não pode voltar atrás.
  • Seu ganho é 1 se você escolher a melhor dentre as N pessoas e 0 se escolher qualquer outra.
  • Se chegar à última, leva a última. Em outras palavras, se a balada começou a miar e são seis da manhã, você leva para casa a pessoa que sobrou, sinto muito. Nisso, convenhamos que o modelo é bem preciso.

Confesso que o modelo tem um problema, a noção de tudo ou nada, de que seu ganho é zero ainda que você leve a segunda melhor, enquanto, convenhamos, não é algo tão ruim. Vamos imaginar que você é extremamente exigente e sentirá que a noite não valeu a pena porque, levando a segunda melhor, pensará apenas na primeira durante a noite toda.

Para resolver o problema, vamos definir duas variáveis. X_n(1) é o seu ganho esperado se na n-ésima pessoa entrevistada você encontrar a melhor até então; X_n(0) é seu ganho esperado caso a n-ésima entrevistada não seja a melhor vista até então. Em nosso modelo, claro, X_n(0)=0, você não espera ganhar nada levando alguém para casa que nem é o melhor dos primeiros n que você já viu, vale mais tentar outras pessoas e correr o risco de encontrar o melhor nos seguintes. Se você encontrar na n-ésima a melhor até então, o seu ganho é a chance de a melhor pessoa estar entre as n primeiras. Como a ordem em que você pega as pessoas é aleatória, essa chance é de n/N. Assim, X_n(0) = 0 e X_n(1)=n/N.

Em seguida, definimos o ganho esperado se descartamos a pessoa n-1 e passamos para a n, chamamos essa variável de Y_n. O seu ganho esperado descartando a pessoa n-1 depende do que você vai fazer encontrando a pessoa n. Se você decidir ficar com a pessoa n, seu ganho esperado saltando n-1 é o ganho esperado de n, ou seja, X_{n}. Se você decide saltar também a n, então seu ganho esperado será Y_{n+1}. Você vai tomar essa decisão baseando-se nesses valores, você deve se perguntar “Quem é maior: X_{n} ou o valor médio de Y_{n+1}?”. Comparando esses dois valores, você sabe qual será seu comportamento no próxima pessoa. A fórmula para Y_n será, portanto, definida de forma recursiva:

 Y_n = \max \{X_{n},\langle Y_{n+1} \rangle \}

Onde \langle x \rangle é a média de x, escrita desse jeito com o único objetivo de fazer os estatísticos lendo esse texto terem um pequeno derrame de nervoso.

Esse cálculo recursivo encorpora bem o dilema descrito acima. Perto das últimas escolhas, X_n fica grande se você encontra a melhor pessoa até então e Y_n fica pequeno. No início, contudo, X_n é pequeno e vale mais apostar no futuro do que estacionar no começo. Para que a fórmula recursiva faça sentido, ela precisa ter um ponto de partida. Nisso usamos a última hipótese, o ganho esperado pulando a última casa é o mesmo que o da última casa, ou seja, pular a última não adianta, você leva a última opção se chegar nela: X_N=Y_N. Usando a fórmula acima, e com algum malabarismo que não cabe aqui, você consegue deduzir a expressão de Y_n:

 Y_n = \frac{n}{N}\sum_{k=n}^{N-1} \frac{1}{k}

Assim, começa a valer a pena escolher uma pessoa a partir do momento em que X_n > Y_n, ou seja, quando estamos na k-ésima pessoa e 1>\sum_{k=n}^{N-1} \frac{1}{k}. A partir desse valor, seu ganho esperado ficando com a melhor pessoa encontrada até agora é maior que o ganho esperado no futuro pulando essa pessoa; logo, é estatisticamente mais interessante levar essa para casa.

Claro que encontrar esse valor de k não é simples, tem que somar fração e isso é chato, tem umas partes que envolvem MMC e isso me dá fadiga. Melhor que somar essas frações seria usar uma boa aproximação para essa soma, que eu conheço bem, é a série harmônica \sum_k \frac{1}{k}. Como você deve se lembrar de sua infância, essa soma de 0 a n pode ser aproximada, para grandes valores de n, por \ln n . Assim, a soma de n até N-1 deve ser \ln (N-1)-\ln(n) = \ln\left(\frac{N-1}{n}\right). Como usamos a hipótese de valores grandes de N, podemos escrever isso como \ln\left(\frac{N}{n}\right). Assim, devemos parar de pular candidatos quando encontramos o melhor a partir do n-ésimo, sendo n o número tal que \ln\left(\frac{N}{n}\right)<1, ou seja, n = \frac{N}{e}, onde e é o número de Euler e=2,71828\ldots .

Percebemos que essa conta nos diz para pularmos os primeiros \frac{N}{e} pretendentes e, após esses, ficar com o primeiro que for melhor que todos os anteriores. Note que \frac{1}{e}\approx 0.37. Em outras palavras, a estratégia optimal para encontrar o melhor pretendente da balada para levar para casa é a seguinte: estabeleça um número de pessoas para pegar na balada. Rejeite necessariamente os primeiros 37% delas. Cole na primeira pessoa que aparecer que for melhor que todas as anteriores e leve esta para casa.

O mesmo vale para namorados ou namoradas durante sua juventude. Se quer maximizar suas chances de casar com a melhor opção, estabeleça uma estimativa do número de pessoas com que vai namorar durante sua vida, termine com os primeiros 37% e case com a primeira que aparecer que for melhor que todas as anteriores.

Vamos ver quão bem isso funciona. Para isso, vamos contar a história de Pedro.

Pedro é um garoto que costuma ir a três baladas diferentes. Ele está atrás de garotas, e quer levar a melhor delas para casa. As baladas são diferentes, e a qualidade dos frequentadores tem uma distribuição variada para cada balada. Vejamos quais são elas, usando descrições do site cidadedesaopaulo.com:

  1.  A The History, localizada na Vila Olímpia, tem piso que muda de cor e agrada tanto àqueles que já curtiram os hits dos tempos da brilhantina quanto às novas gerações. Possui um público pouco variado e previsível, a qualidade dos frequentadores será dada por uma distribuição gaussiana.
  2. Localizado no Baixo Augusta, o Beco 203 é reduto dos moderninhos e alternativos que curtem um rock mais soft e festas em que o som é tocado através de fones de ouvido. Atraindo um público mais variado, a distribuição da qualidade de seus frequentadores será dada pela distribuição uniforme.
  3. A Lab, localizada na Rua Augusta, possui em sua programação dias dedicados à música eletrônica. Com um público ligeiramente variado, mas não muito, a qualidade de seus frequentadores está mais concentrada nas piores notas que nas melhores e será modelada pela distribuição exponencial.

Pedro é uma máquina e se dispõe inicialmente a pegar 100 garotas. Ele vai vezes o suficiente às baladas para poder testar diferentes estratégias, e está disposto a tentar todas as possibilidades. A experiência é a seguinte: um dia ele leva a primeira que encontrar para casa. No dia seguinte, ele rejeita a primeira e leva a primeira melhor que as anteriores para casa. Em seguida, rejeita as duas primeiras e leva a primeira melhor que as anteriores que encontrar para casa. Fazendo isso até a centésima vezes o suficiente, ele consegue estimar a taxa de sucesso de cada estratégia. Uma noite é bem sucedida se a que ele levou para casa era a melhor dentre as 100 possíveis. São bastantes opções, vejamos qual a taxa de sucesso de cada uma das estratégias.

top_na_baladaÉ facil acreditar que o valor ideal para a estratégia é 37, ou seja, rejeitar os primeiros 37% e aceitar a primeira opção melhor que todas as anteriores. Note como esse valor independe de como a qualidade das pretendentes está distribuída, seja uniforme ou extremamente concentrada em torno da média, a eficácia de cada estratégia é a mesma.

Falando um pouco mais sério, esse pequeno problema estatístico revela uma matemática internalizada em diversas decisões em nosso cotidiano, a ideia de “assentar”, de escolher uma opção para ser a definitiva. Quando você é jovem, seus namoros são em média curtos, explosivos, cheios de emoções e problemas, a idade vai trazendo mais estabilidade e em um ponto da vida você encontra aquela que acha ser a pessoa certa. Você experimentou o suficiente para identificar uma pessoa melhor que as anteriores e entender que a melhor estratégia é juntar os chinelos com esta; porque, conhecendo as alternativas, você prefere não arriscar e entende que é pouco provável encontrar algo tão melhor nas futuras opções. Casamento é sobre amor, sobre almas gêmeas, some encontrar a pessoa prometida e amada; mas quando você começa a beirar os trinta anos a realidade bate na porta e a estatística, aliada a sua experiência, fala mais alto.

E se você me perguntar se sigo essa estratégia, não vou poder responder. O modelo tem várias hipóteses, várias delas são boas, a maior parte se aplica a minha situação, mas um grande valor de N, certamente, não é o caso.

Dos delitos, das penas e dos almoços.

Rookie

O resultado de uma decisão judicial depende apenas das leis e dos fatos? Com essa pergunta, os matemáticos Shai Danziger, Jonathan Levav e Liora Avnaim-Pesso causaram tumulto em um artigo publicado em Proceedings of the National Academy of Science, um periódico científico americano extremamente bem respeitado, e gostaria de compartilhar esse artigo hoje com vocês.

No artigo, os autores compilaram 1.000 decisões judiciais de liberdade condicional, em que o resultado poderia ser apenas sim (liberdade concedida) ou não (volta para a cela), para explorar um lado pouco comentado do sistema judiciário, pouco mencionado em cursos de direito. Com estatística, poderíamos ver pela primeira vez a influência marcante do café da manhã na definição do futuro de um integrante do sistema carcerário.

O sistema de decisão judicial funcionava da seguinte forma: os prisioneiros eram julgados dependendo da ordem de chegada dos advogados ao tribunal, não tendo poder sobre o horário em que teriam seu caso analisado. Os autores do artigo decidiram compilar a seguinte estatística: como o número de decisões favoráveis varia em relação à hora do dia? Sendo Sim = 1 e Não = 0, podemos fazer a média das decisões e estudar como essa média varia da primeira decisão do dia à segunda, da segunda à terceira e assim por diante. O resultado é o seguinte gráfico:

F1.largeNo eixo X temos a ordem das decisões, sendo x=1 a primeira decisão do dia, x=2 a segunda e assim por diante; cada tick marca uma decisão múltipla de 3. As linhas pontilhadas são pausa para almoço e pausa para café. O gráfico fala por si.

Alarmados com esse resultado, os cientistas estudaram outras variáveis em função da posição da decisão no dia. Porque correlação não implica causalidade, esse comportamento pode ser causado por uma terceira variável que liga as decisões e o horário. Eles então estudaram a gravidade da ofensa, número de encarceramentos prévios, porcentagem de presos que estavam em um programa de reabilitação quando postularam a liberdade condicional e o número de meses cumpridos da pena. Os resultados são:

F3.largeÉ fácil ver que o padrão do primeiro gráfico não chega perto de se repetir em nenhum outro. As outras variáveis não apresentam correlação clara com almoço ou café, não nos resta outra alternativa. Os autores do artigo são hesitantes, dizem que gostariam de achar uma variável escondida, mas a conclusão parece clara: uma decisão judicial depende de leis, fatos e do que o juiz comeu no café da manhã.

Os autores explicitam que não sabem se é a comida ou o repouso. Talvez estar descansado mentalmente torne os juízes mais brandos, e talvez depois de ler tantos históricos com crimes horrendos eles vão endurecendo nas decisões e a pausa lhes restabelece a obrigação da imparcialidade. Independente da sua explicação favorita, o estudo acende debates e reflexões interessantes sobre nossa maneira de fazer avaliações.

Podemos perguntar da taxa de sucesso de entrevistas de emprego em função da ordem de apresentação dos candidatos, podemos perguntar a relação entre nota de um aluno em prova oral e sua ordem de passagem pela lousa. Independente da pergunta, se podemos tirar uma lição do artigo, percebemos que pessoas alimentadas são mais felizes, que você quer seu caso julgado por um juiz repousado, e que levar uma maçã para a professora, no final das contas, é uma excelente ideia.

A valsa dos partidos, de Collor a Dilma

Rookie

Nesse primeiro de abril lembramos os cinquenta anos do golpe. Vi uma série de reportagens e matérias sobre o evento, sobre as causas e as supostas causas, mas pouco vi sobre onde chegamos desde então. Não sou historiador, não tenho calibre para escrever nada a respeito da história política, mas gosto de estatística e de analisar dados coloridos. Por isso, gostaria de compartilhar com vocês o resultado da aplicação de algumas técnicas estatísticas interessantes no estudo e análise do que tem sido a política brasileira desde o fim desse período sombrio de nossa história até os dias de hoje. Queria compartilhar a estatística da câmara dos deputados, os movimentos, fluxos e tendências, desde o governo Collor até a presidência de Dilma. Esse post é imenso, e extremamente incompleto. Preciso da ajuda de vocês para entender a maioria do que observei. Se você achou o post longo, basta ler o começo para entender como os gráficos funcionam e se divertir nos vídeos.

Como expliquei nos posts anteriores sobre o assunto, esse não é um blog de política e esse não é um post político. Comentários culpando os petralhas ou a privataria tucana não são tão bem-vindos quanto análises refletidas sobre os dados que vou apresentar. E tento manter meus comentários sempre no lado da estatística da coisa, não insiro nenhuma informação sobre a ideologia dos partidos nos dados e não faço juízo de valores das decisões dos governos de cada partido.

Antes de apresentar os dados, preciso explicar o que são esses dados. Como nos posts anteriores, eu uso como dados apenas os votos proferidos pelos deputados da câmara nos projetos de leis envolvidos naquele ano. Cada gráfico representa os deputados daquele mandato como pontos coloridos, sendo a cor referente ao partido. Pontos próximos significam deputados que votaram de forma semelhante. Pontos distantes significam deputados que votaram de forma muito diferente. Dessa forma, podemos identificar blocos e estruturas na política. Simplificando bastante, você pode imaginar o gráfico dividido em quatro quadrantes, a posição dos deputados e partidos nesse quadrante diz bastante sobre o lugar deles no cenário político:

quadrado

Ou seja, nesse gráfico os eixos não importam, o importante é a distância entre os deputados, essa sim significa alguma coisa. Eu pensei em mostrar as matrizes, como da outra vez, porque gosto bastante delas e porque elas representam a informação completa enquanto esse gráfico é uma projeção em duas dimensões de um problema a N dimensões. Por motivos que eu pretendo algum dia terminar um post explicando, eu não perco tanta informação quanto vocês imaginam passando de N a duas dimensões, essa é uma das maravilhas da técnica de análise de componentes principais. Esse fato é resultado da intensa polarização da estrutura política, mas isso eu discuto em outro post. Em cada gráfico, contei apenas deputados que votaram em mais de 30% das eleições em todos os anos daquela legislatura, a ideia é desconsiderar suplentes e gente que abandonou o barco para fazer qualquer outra coisa. Já tenho poucas votações, se eu os incluísse correria o risco de admitir um circo de estatística de péssima qualidade sujando meus dados, não podia correr esse risco.

E quais os dados desse gráfico? Usei apenas os votos de cada membro do congresso, ou seja, se eles disseram “Sim” ou “Não” às propostas que estavam em votação no plenário. Pela estrutura dessa conta, pouco importa se é sim ou se é não, eu estou interessado apenas em quando deputados votam de forma parecida ou divergente. Para quem gosta da matemática envolvida, uma frase apenas (que você pode ignorar se não entender): esse gráfico são as coordenadas dos dois componentes principais, ou seja, as coordenadas dos autovetores da matriz de correlação associados aos dois maiores autovalores, ponderados pelos autovalores.

Mas você, como eu e o Datena, quer as imagens. Sem mais, começamos com o primeiro, e mais turbulento, mandato da nova democracia brasileira.

  • Governo Collor/Itamar: 1991-1994

É complicado começar com esse período, porque ele é um dos mais complexos e interessantes. Os pontos que levanto aqui levam em conta os períodos seguintes, e o contraste que ele apresenta com os períodos de democracia mais estável.

O ano 91 apresenta uma política bem esparsa e pouco polarizada. Percebemos a região do governo dominada pelos herdeiros políticos dos partidos decorrentes do Arena: PP e PFL dominando essa região representando a “base aliada”. É complicado falar de governo e oposição em um mandato em que o presidente era de um partido minoritário, tão pequeno que foi excluído da análise, apresentou apenas quatro deputados na câmara e eu não queria gastar uma cor com o PRN, cores são preciosas nesses gráficos.

De 91 para 92 notamos uma polarização em um regime tríplice curioso. O governo é contrastado com duas oposições, de um lado o bloco PMDB-PSDB e do outro PT-PDT-PCdoB. Ainda que oposicionistas, esses blocos divergem entre si, criando essa tripla estrutura de poder que não dura muito tempo.

De 92 a 93 ocorre uma grande reviravolta no cenário político, o que imagino ser resultado da deposição do presidente em dezembro de 92. O resultado é uma espécie de governo de coalizão: base aliada e oposição se aproximam nas votações da câmara dos deputados. Eu nunca ouvi falar de tal processo, nem sei se era completamente conhecido, mas a estatística é clara: situação e oposição votaram de forma profundamente semelhante em 1993 contrastando drasticamente com o comportamento apresentado nos anos anteriores (e posteriores, como veremos).

Não me arrisco nas causas da coalizão, deixo a quem sabe do assunto. Poderia chutar que a queda do presidente e o temor de uma volta da ditadura poderia ter impulsionado os parlamentares a acertarem suas diferenças e terem votado, durante 1993, de forma semelhante em projetos importantes, ou a busca do presidente Itamar pelo apoio dos partidos mais à esquerda; mas posso estar, e provavelmente estou, completamente errado.

No final de 93, percebemos o PMDB migrando para a zona governista. Não quero estragar o suspense dos próximos vídeos, mas revelo que ele não sairá de lá tão cedo.

E onde está 1994?

Eu também gostaria de saber! Os dados que obtive da câmara mostram a convergência de dois fatores tristes para minha análise: em 94 houve um número extremamente reduzido de votações totais e uma proporção particularmente elevada de votações secretas, apenas 17 votações abertas dentre as 84 votações totais. Como base de comparação, tomemos os anos vizinhos: 93 teve 75 votações abertas e 179 totais, 95 teve 138 votações abertas e 248 totais. A pista para entender esse mistério talvez esteja no ano que é o segundo colocado em matéria de poucas votações abertas: 2002 (41 votações abertas e 116 totais). Aparentemente em anos de eleição em que há mudança de governo, há poucas votações e, dentro delas, uma proporção muito baixa de abertas. Não confirmo que essa seja a razão, ambos também são anos em que o Brasil ganhou a copa do mundo, deixo os números aqui para vocês e aguardo interpretações.

Uma palavra no código de cores. Os partidos progressistas são todos denotados na cor rosa porque, no futuro, irão se fundir. Isso foi uma decisão estética, falta cores no espectro visível para tantos partidos no Brasil. É importante também notar que o laranja, apesar de mesmo nome, não é o atual PSD, o “partido do Kassab”. Este PSD será extinto e o novo PSD irá se apropriar do nome, ele também se apropria da cor porque meu código de gerar esses gráficos é indiferente às sutilezas da política brasileira.

  • Governo FHC I: 1995-1998

O primeiro mandato de Fernando Henrique Cardoso representa uma grande estabilização na política nacional, definição razoavelmente clara de governo e oposição com uma forte base aliada composta dos partidos progressistas, do PFL, do PSDB e uma grande fatia do PMDB. Os movimentos durante esse período são suaves e eu não pude perceber nenhum fenômeno marcante na dança dos partidos durante esse ano. Percebemos um fato que se repetirá nos mandatos seguintes, parece ser uma lei da política brasileira: a cada mandato, a base aliada começa coesa e termina difusa. Nesse mandato, percebemos esse efeito mais claro no último ano. Minha interpretação é tão boa quanto a sua ou pior, mas isso pode representar a incerteza dos parlamentares quanto ao apoio que deve ser atribuído em ano de eleição. A difusão em 1998 é fraca comparada a 2002, o que pode ser explicado pela vitória esmagadora de FHC nas eleições de 1998, ou pode também ser explicada pelo fato de 98 ser a análise de mais de 100 votações enquanto 2002 apenas de 41. Ou seja, não tenho uma explicação muito convincente para esse comportamento.

Olhando esse gráfico, eu lembro do PMDB do senado em 2012, que estudei em outro post. Ainda que faça parte da situação essencialmente, ele é razoavelmente difuso e dança de acordo com o resto do conjunto. É fácil ver que o PMDB parece ser equivalente ao sistema total, apenas em escala menor. Para confirmar essa suspeita, precisamos do tira-teima, vejamos esse mesmo gráfico colocando o PMDB em destaque.

Esse gráfico mostra que durante o governo FHC I, como vai o PMDB, assim vai o Brasil. Fica a pergunta se o PMDB segue os movimentos da câmara ou se os define, mas uma coisa é clara: essa cauda do partido indica uma oposição enrustida em alguns de seus membros.

O maior problema desse período também é minha profunda falta de conhecimento das manobras políticas da época. O ideal é observar o gráfico, encontrar fenômenos e tentar explicar com as manobras, mas confesso que as manobras ajudam a ter algo para procurar. Fato é que entre meus sete e onze anos eu não assisti tanto ao Jornal Nacional, então minha conclusão final é: período tranquilo, bem definido com oposição reduzida e forte base aliada, sendo o PMDB o partido menos coeso, mais dinâmico e quase distribuído proporcionalmente em torno do espectro.

  • Governo FHC II: 1999-2002

Esse período apresenta um dilema na análise. Olhando de forma ingênua, podemos achar que a base aliada se desintegrou pouco a pouco conforme o governo avançava. Enquanto isso é coerente com o que leio do segundo mandato do governo FHC, o ano 2002 é particularmente problemático: até o PT parece se dispersar! Mas devemos lembrar que esse ano possui um número anômalo de votações, apenas 41, isso pode ser a maior causa da falta de coesão de todos os partidos. Usando um número tão pequeno de votações, podemos obter um resultado que não convergiu bem para a real coesão partidária, e certamente não tanto quanto os anos anteriores.

Notamos, contudo, a continuação da forte polarização governo-oposição, sendo a base aliada PSDB, PFL, PMDB, PP/PPB e PTB, a oposição liderada pelo PT e contendo PCdoB, PDT e PV, com o PL em terra de ninguém entre os dois mundos. Novamente, se alguém é um entendido no período, preciso de um norte para analisar esses resultados. A olho nu, não enxergo nada particularmente importante além da continuação do fenômeno de desintegração da base aliada no decorrer de um mandato. A explosão parece particularmente acentuada em 2002, mas não posso dizer o quanto disso é um efeito real ou da estatística precária que possuo. Pensei em fazer como 1994, que omiti, mas 41 parece mais justo que 17. Toda essa estatística não é de primeira qualidade, o fato de ter menos votações que deputados pesa, mas é o que tem para hoje. Fazemos o que podemos com o que temos.

O período seguinte é o governo Lula, mas prefiro estudar a fundo a transição FHC-Lula. Por si, ela valia um post, e é provavelmente a parte mais interessante desse post todo.

  • Transição FHC-Lula: 2001-2004

Lembrando que Lula foi eleito em 2002 e assumiu em 2003, o que é esperado em nossos gráficos? De forma ingênua, podemos esperar que os blocos oposição e governo troquem de lugar, como em uma quadrilha democrática, imaginamos que o movimento diagonal será intenso e que pouca gente ficará no mesmo lugar. E estaríamos errados.

E difícil analisar duas legislaturas diferentes, pois me parece injusto comparar quem saiu com quem entrou. Para evitar esse problema, reduzo o espaço amostral: nessa seção, analiso apenas os deputados que se reelegeram em 2002, ou seja, estavam presentes tanto em FHC II quanto em Lula I. Dessa forma, consigo segui-los durante os anos 2001-2004 sem me perder ou sem cometer injustiças. Vejamos o que acontece:

É muita coisa para seguir, mas conseguimos distinguir parte do comportamento esperado, e parte de um comportamento curioso. Enquanto há de fato uma troca entre oposição e governo, PSDB-PFL dançam quadrilha com PT-PCdoB-PDT-PL-PDT, trocando de lugares no jogo democrático quando o governo é assumido pelo presidente Lula. Mas há diversos outros partidos no balaio, e é fascinante como o movimento do PMDB-PP/PPB-PTB é drasticamente diferente dos outros partidos. Enquanto o primeiro grupo troca de lugar, o segundo estaciona e trata a mudança de governo com a naturalidade de uma quarta-feira. Para deixar esse fenômeno explícito, e provar que não estou inventando, reproduzo esse mesmo gráfico em dois: um com os partidos “ideológicos” (PT, PSDB, PFL, PCdoB, PDT, PL) em destaque e outro com os “governistas” em destaque.

 Não quero inserir juízos de valor nessa análise, quero bastante me conter, mas convenhamos, esses gráficos não parecem ser do mesmo período. Lembrando o que esse gráfico representa: em 2001, os deputados do PMDB, PP/PPB e PTB votavam profundamente alinhados com os votos do PSDB/PFL. Em 2003, esses mesmos deputados votavam exatamente como o PT votava! Certamente houve uma mudança na orientação partidária, nas alianças políticas, mas eu quero enfatizar que esse gráfico segue as mesmas pessoas. Em uma diferença de meses eles passaram de seguidores fiéis da direita tucana a apoiadores incondicionais de todas as propostas petistas de esquerda no plenário. O fenômeno é fascinante, e a matemática é implacável: esses deputados passaram por alguma experiência reveladora, como Saulo de Tarso, que os compeliu a se fazerem uma nova pessoa, um novo homem ou mulher, deixando para trás ideias que pregaram durante no mínimo quatro anos, e politicamente desde 1993.

Observando o gráfico com o foco nos ideológicos, percebemos o início da derrocada do PSDB. Notem que tanto PSDB quanto PFL deixam um “rastro” de deputados na base aliada, pontos azuis e roxos que se recusam a abandonar o barco quando afunda e preferem apenas pular para a nova embarcação vermelha que ancorou nas águas governistas. Entre o primeiro e segundo ano do governo, percebemos que esse rastro de deputados tucanos e frente-liberais é rapidamente absorvido em uma fagocitose política que não deixa traços. Foram eleitos pelo PSDB e PFL, essa foi a sigla que financiou suas campanhas de reeleição; mas entre maioria na câmara e integridade ideológica acabaram fazendo uma escolha bem definida. Fossem um ou dois eu poderia suspeitar de um avivamento esquerdista individual, mas a quantidade traz desconfiança.

  • Governo Lula I: 2003-2006

Estudamos esse governo em outro post, mas agora temos muito mais base de comparação com os governos anteriores. Enquanto naquele post eu disse que o comportamento de correlação entre as duas metades do primeiro governo Lula era compatível com a narrativa de um mensalão, revejo essa análise à luz dos dados dos governos tucanos anteriores. Parte desse movimento pode ser apenas esse fenômeno natural de desintegração da base aliada ao longo de uma candidatura. Ainda, o movimento petista em 2005 é ligeiramente diferente da dispersão normal, há um isolamento do PT em relação aos outros partidos da base aliada. Curiosamente, o PT volta ao centro da base aliada em 2006. Levanto duas possibilidades de explicação:

  1. O escândalo do mensalão isolou o PT em 2005, mas em 2006 a poeira havia baixado e a condição de normalidade se reestabeleceu.
  2. A desintegração da base aliada é um fenômeno natural, mas em 2006 as eleições presidenciais estavam praticamente certas e a base aliada não arriscou fazer compromissos com a oposição para poder mudar de barco caso afundasse.

Ou qualquer outra explicação que vocês encontrarem, não coloco minha mão no fogo por nenhuma análise política minha e quero deixar isso bem claro. É fundamental notar o caminhar da oposição durante esse mandato. A política brasileira desde 2003 tem sido a história da derrocada dos partidos de direita. Compare a força oposicionista (distância da base aliada e coesão partidária) petista durante o governo FHC e a força da oposição ao governo Lula. Não se enganem, notem a escala dos eixos, a distância horizontal é muito mais importante que a vertical. Matematicamente falando, nesse período PSDB e PFL votaram de maneira dispersa e não confrontam a base aliada na mesma ordem de grandeza que a oposição de períodos anteriores. Houve uma tentativa de coesão em 2005, provavelmente resultado do escândalo político dando força à oposição, mas 2006 amanheceu um novo ano e o PSDB explodiu na direção da base aliada.

  • Governo Lula II: 2007-2010

Lula foi uma poderosa cola na base aliada durante seus oito anos de mandato, e particularmente nos quatro últimos. A presença do PMDB se revela mais uma vez fundamental para o poder da base aliada: se os verdes estivessem no outro canto do gráfico, o PT passaria poucas leis durante o mandato de Lula. A base aliada é composta majoritariamente de PT-PP-PMDB-PR, enquanto oposição é PSDB-PFL/DEM.

Se a oposição terminou o primeiro mandato de Lula aninhando-se na base aliada, ela começa novamente bem longe e suficientemente coesa, para ir novamente se aproximando e se difundindo. É notória a presença do PSOL, seus três deputados como um sistema ternário de estrelas passeiam pelo espectro representando a coesão do partido e seu caráter oposicionista.

Percebemos a crise do PFL nesses dados, não apenas por sua mudança de nome para DEM. Note o que é esse mesmo período, focando apenas os frente-liberalistas:

Não apenas esse partido, central na base oposicionista desde 2003, visita constantemente a base aliada; ele pouco a pouco se dispersa e cede à tentação de abraçar a zona governista. O PSDB segue em parte, na natural aproximação entre base aliada e oposição que parece ocorrer ao final de cada mandato. O movimento do DEM se completará no governo Dilma, e sua trajetória de 1991 a 2013 não terá final feliz.

  • Governo Dilma: 2011-2013

Chegamos aos dias de hoje, e o governo Dilma apresenta uma estatística rica e, em minha opinião, mais interessante que a dos predecessores. O primeiro fenômeno observado é o surgimento do PSD, que não é o mesmo PSD de antes, a falta de originalidade no nome reflete minha falta de originalidade nas cores. Esse novo PSD é o tal “partido do Kassab”, e se alastra na região central do espectro político como uma epidemia que varre o DEM e pesca alguns parlamentares da base. Os democratas hesitantes do governo Lula encontram casa nesse novo PSD, e vale estudar esse fenômeno com mais cuidado para determinar exatamente de onde são recrutados os novos integrantes desse partido.

A criação do PSD consuma o destino do PFL/DEM, e completa sua trajetória de majoritário na base aliada em 1991 a uma sombra do que já foi em 2013.

Outro fenômeno interessante aparece durante o governo Dilma. Em outras legislaturas, pudemos observar a difusão da base aliada como um processo natural, mas há algo diferente no governo Dilma. Não é uma simples difusão, em 2012, o PT é isolado na base aliada, enquanto o restante dos partidos migra para uma região central formando uma segunda base governista. Pela primeira vez desde 1992 temos novamente uma estrutura com três polos de poder político: PT-PCdoB no topo da base aliada, o grande bloco governista PMDB-PP-PTB-PSD e o que chamávamos de oposição PSDB-DEM.

Nesse contexto em que as divergências entre o bloco central e o PT são grandes, vale questionar nossas noções antigas de oposição e base aliada. Ainda que o vice-presidente seja peemedebista, as correlações entre PMDB e PT parecem se deteriorar bastante conforme Dilma vai governando. A base aliada não se torna exatamente difusa com o tempo, ela se polariza em duas, como se o PMDB decidisse formar sua própria base aliada e não convidasse Dilma para a festa.

  • Conclusões?

Não tenho conclusões próprias desse experimento. Os gráficos estão corretos e minhas análises provavelmente erradas, peço novamente a contribuição de vocês para lerem esses dados e apontarem o que esqueci ou inventei. Como isso é ciência, divulgo o conjunto dos dados usados e os dados brutos, bem como os vídeos para download aqui. Façam suas próprias análises, questionem meus gráficos e combatam minhas afirmações, analisem como acharem adequado e justo; esse é o único jeito de se fazer ciência, o único de se chegar a uma resposta certa.

Minto, talvez tenha uma conclusão. Os gráficos que apresentei colocam em xeque uma noção política que tentamos usar no Brasil, mas falhamos: nossa tentativa de rotular partidos e parlamentares como de esquerda ou de direita. Em uma conversa de bar, se você perguntar sobre parlamentares de direita, provavelmente ouvirá como resposta a bancada evangélica, Jair Bolsonaro, Paulo Maluf; entre outros. Jair Bolsonaro e Maluf são do PP (base aliada), enquanto em 2013 foram considerados líderes da bancada (evangélica) os parlamentares João Campos (PSDB-GO), Anthony Garotinho (PR–RJ), Eduardo Cunha (PMDB-RJ), Lincoln Portela (PR-MG) e o senador Magno Malta (PR-ES) (Wikipédia), notamos que apenas o primeiro deles pertence a um partido dito de direita, os outros todos são membros de partidos profundamente enraizados na base aliada petista, nominalmente um governo de esquerda. Junte isso ao FHC, grande cacique do PSDB, defendendo abertamente a legalização da maconha para ter uma imagem colorida do que é a política brasileira.

À luz dos dados, e da valsa que foi acompanhar o espectro político durante 22 anos, não consigo mais usar termos ideológicos para a política brasileira. Não é desilusão, é estatística; esses dados são isentos de ideologia e mostram com quem cada parlamentar votou. Essa dança de pontos parece ser mais facilmente explicada como conjuntos de parlamentares que conseguiram alianças ou não conseguiram alianças, suas opiniões em programas sociais, dívida pública, direitos contraceptivos, privatizações ou direção econômica não parecem valer dois centavos, já que um mesmo parlamentar pode em 2002 apoiar azul e em 2003 votar exatamente como vermelho.

Isso me parece um resultado natural de nossa cultura política. Não votamos em partidos, votamos em indivíduos, em parlamentares individuais. Nessa lógica, o indivíduo ganha força sobre o partido, o que traz a riqueza desses gráficos. Se essa análise fosse feita na França ou nos EUA, os gráficos nos matariam de tédio, os partidos possuem muita força e um parlamentar que sai da linha não é facilmente perdoado, todo gráfico seria composto de blocos extremamente coesos e distantes. A quantidade de partidos e sua distribuição de tamanho seriam também muito diferentes: nos dois países mencionados eu poderia fazer este gráfico em preto-e-branco, enquanto aqui falta frequência no espectro visível para tanto partido; se eu precisasse representar o PSC eu teria que usar infravermelho.

Retomando a origem deste post, temos o golpe de 1964. Nele, alguma direita acusou a esquerda de uma tentativa de golpe e, para evitá-lo, tomou a iniciativa. Atualmente, essa noção está tão longe de nossa política quanto os gols de Pelé daquela época estão de nossa seleção. Se levantarem em nossa conversa de bar reclamações sobre o direitismo de Jair Bolsonaro, podemos argumentar que o partido de Bolsonaro foi estatisticamente indistinguível do PT durante o governo Lula. Suas declarações pouco importam, seu impacto é nos votos. Nessa discussão podemos ouvir que o PSOL é o único partido verdadeiramente de esquerda do Brasil, e podemos responder que ele foi estatisticamente mais próximo do PSDB que do PT ou do PCdoB durante todo o governo Lula e em 2011 os três deputados psolistas foram quase estatisticamente indistinguíveis de um típico deputado tucano. E se isso é uma conversa de bar, preciso perguntar: há direita no Brasil? Há esquerda? Não tenho respostas para essa pergunta, essa hipótese não foi necessária para minha análise. Tenho partidos vermelhos, azuis, verdes, rosa, cinza e laranjas surgindo, morrendo, brigando, valsando e compondo com complexidade e riqueza sinistras a câmara dos deputados, e, nela, definindo os rumos dessa nação.