Arquivo da tag: Principal Component Analysis

A força de uma narrativa

Rookie

Em meu último post, apresentei a vocês algumas técnicas estatísticas interessantes aplicadas ao estudo de correlações entre os partidos brasileiros. O assunto agradou, e muitos pediram um estudo parecido com a câmara dos deputados, com sua base amostral muito maior, seu jogo político mais acirrado, seria um estudo interessante em vários níveis. No entanto, não queria repetir exatamente o que fiz com os senadores, não queria mais do mesmo. Decidi, por isso, avançar em um assunto mais polêmico, e estudar a força de uma narrativa da política brasileira.

Lanço novamente o alerta: esse não é um blog político. Não tenho agenda partidária e minha opinião política é irrelevante na estatística. Tentei tratar os dados da maneira mais imparcial que pude, aceito sugestões dos que acharem alguma soma ou divisão injusta nessas linhas. A escolha do assunto é um interesse pessoal que partilho com muitos brasileiros: o escândalo na política apelidado mensalão.

A narrativa da acusação, resumidamente, é a de que durante os anos 2003-2004 a base aliada pagou uma espécie de mesada a deputados para fortalecer suas votações e assegurar o apoio da câmara aos projetos do governo. Base aliada e governo negam, sustentando sua inocência até o julgamento, que ainda corre. O escândalo explodiu no primeiro semestre de 2005, o que nos permite uma tentativa de análise nisso.

Tendo em mãos os votos dos deputados federais durante o primeiro mandato do governo Lula, pude dividir esses quatro anos em duas duplas: 03-04 e 05-06. Podemos nos perguntar como as correlações entre os partidos evoluíram entre esses dois biênios, pois, se a narrativa da acusação faz sentido, então a correlação entre governo e centro nos dois primeiros anos deve ser mais forte que nos anos seguintes, pois na primeira dupla o mensalão supostamente existiu, e foi desmantelado no início dos dois anos seguintes.

Claro, isso é uma simplificação grosseira, e proponentes de ambos os lados da narrativa podem interpretar os resultados da análise como quiserem. Se eu não encontrasse correlações, os mensalistas poderiam alegar que tal pagamento pode ter continuado no biênio seguinte. Eu encontrando correlação, os anti-mensalistas poderiam dizer que as mentiras vomitadas pelo partido da imprensa golpista fizeram o centro recuar do governo, ou que a mudança nas correlações é um resultado normal de uma crise política. A estatística é uma, mas a interpretação é sua.

Dito isso, vamos aos dados. Depois da publicação do último post, recebi uma chuva de dados, planilhas e banco de dados, e mando todos os meus agradecimentos aos que indicaram referências e especialmente aos do radar parlamentar pelo lindo banco de dados com todos os votos dos deputadores federais desde 1999. Infelizmente esse banco de dados não é meu, qualquer interessado pode entrar em contato com o grupo do radar e eles provavelmente ficarão felizes em compartilhar os dados. Aquele arquivo .xml foi um presente de natal, eu nem sabia o que fazer com tantos dados, senti-me uma criança presa na fábrica da Nestlé.

Para realizar a análise, tomei algumas decisões. Não podia considerar todos os deputados, alguns não possuíam relevância estatística suficiente. Excluí da análise qualquer deputado que tenha votado em menos de 10% das votações em qualquer um desses dois períodos. Ao todo, foram tomadas 259 decisões em 03-04 e 164 decisões em 05-06. A câmara possui 513 deputados, mas com este filtro apenas 450 sobreviveram para a análise. Os excluídos fazem parte dos que se tornaram prefeitos em 2005 ou daqueles cuja frequência no plenário deixou a desejar.

Primeiro, vejamos a composição da câmara no biênio 03-04, em uma matriz similar à usada no estudo dos senadores:

lula_1

Matriz de correlação da câmara nos anos 03-04.

Aos que não viram o último post, explico a matriz. Na linha $i$ e coluna $j$ você encontra a correlação entre o deputado $i$ e o deputado $j$ durante os anos 03-04. Se essa correlação é positiva, eles votam juntos. Se é negativa, costumam divergir. O tamanho da correlação será a coerência entre os votos desses deputados, muito alta, eles votam de forma praticamente igual, muito negativa, eles parecem querer votar um o oposto do outro. Essa matriz pode ser lida em blocos. Notando a existência de dois blocos, percebemos a existência de duas orientações políticas na câmara, que equivalem ao que chamamos de governo e oposição. Como no caso dos senadores, elas existem e são bem definidas. Além disso, há pouquíssimas regiões de anticorrelação, o que mostra que a câmara em 2003 buscou bastante o consenso; a própria natureza dos votos da câmara parece chamar mais concordância e unanimidade.

O segundo passo foi criar essa exata mesma matriz para o período 05-06, mas precisamos tomar cuidado. Devemos continuar com a mesma ordem da matriz, e essa ordem foi definida pelas correlações no primeiro período. Mantendo os mesmos deputados nas mesmas linhas, eu construo a matriz do segundo biênio do primeiro governo Lula:

lula_2_dep_1

Matriz de correlação da câmara nos anos 05-06.

Essa matriz está bem mais confusa, mas é o esperado, pois usamos a ordenação no período anterior, e certamente coisas mudaram entre os dois períodos. Ainda não conseguimos ver claramente o que mudou, ou o quanto mudou, por isso precisamos de um critério mais visual e preciso para medir a diferença, e uma subtração costuma ser bem eficaz para esse trabalho.

A matriz seguinte será a diferença entre as correlação de cada deputado comparando o período 05-06 ao período 03-04. Os exatos mesmos deputados são analisados. As regiões vermelhas, negativas, são aquelas que perderam correlação, ou seja, enfraqueceram politicamente de 03-04 a 05-06. As regiões azuis ganharam correlação, foram fortalecidas quando comparamos os dois biênios.

lula_delta

Diferença entre as matrizes de correlação do primeiro e segundo biênio do primeiro governo Lula.

E aqui temos um prato cheio para análise. A base governista perdeu muita correlação a partir do ano 2005, e, com isso, muita força política. Notamos que as mesmas pessoas que abandonaram o barco do governo, as “raias vermelhas” no bloco governista, concordaram substancialmente mais com o bloco da oposição. Essas raias que rasgam o espectro mostram um movimento massivo de políticos que votaram majoritariamente a favor do governo nos primeiros dois anos e trocaram de opinião, passando a contrariar a situação em um número relevante de vezes nos dois anos seguintes. Cada raia vermelha representa um deputado que em 2003-2004 votou diversas vezes a favor do governo e em 2005-2006 não apresentou o mesmo nível de concordância com a base da situação. O número de raias vermelhas no governo passa de 100.

É verdade que há raias vermelhas na oposição também, não podemos ignorá-las. Mas podemos contá-las, são cinco deputados que votavam com a oposição e passaram à situação, um número insignificante perto do fenômeno inverso, podendo ser explicado por flutuações estatísticas convencionais ou outras manobras políticas naturais ao congresso. Ademais, dentro da oposição há de tudo, aumento e perda de correlação, enquanto a base aliada é um mar de vermelho, não há nenhum ganho de correlação em todo núcleo da base aliada.

Em um próximo post, prometo a análise desses dados com os partidos em mente. Não exponho agora para não carregar em informação, e para não trair meu propósito inicial: avaliar a força de uma narrativa. A acusação do mensalão não cita (que eu tenha visto, correções são bem-vindas) partidos explicitamente, mas um fenômeno interpartidário em larga escala, dinheiro dado a parlamentares como persuasão a votarem de acordo com a situação. Olhando esta matriz, sou obrigado a concluir que a narrativa da acusação, que afirma a existência de um mensalão, é coerente com a estatística apresentada e explica os dados de maneira completa. Contando a partir da explosão do escândalo do mensalão, primeiro semestre de 2005, a correlação da base aliada ao governou caiu de maneira significativa e diversos deputados que estavam no núcleo da coerência governista votaram de maneira drasticamente diferente no segundo período do governo Lula.

Termino o post reiterando o aviso inicial: essa estatística não prova nada. Muitas explicações podem ser levantadas para essa mudança, os dois lados da história podem interpretar os dados como quiserem ou puderem, e podem levantar falhas na metodologia que tentarei responder ou consertar. Vou deixar esse ponto muito claro, porque não quero gente dizendo “Estatístico prova que mensalão aconteceu!”, correlação não implica causalidade. A única conclusão que posso tirar disso é a frase em negrito acima: a narrativa da acusação faz sentido. Se ela fosse verdade, esperar-se-ia dos votos dos deputados uma mudança cujo caráter é muito similar ao observado na realidade. Essa matriz não é prova, no máximo evidência, cuja interpretação e discussão deixo a quem entende do assunto.

Há partidos políticos no Brasil?

Rookie

Discutia um dia desses política com um amigo. Não entendo quase nada do assunto, ainda mais estando longe do Brasil, só recebo compartilhamentos de Facebook com a indignação da classe média no novo escândalo. Meu amigo, contudo, lançou o seguinte argumento:

O Brasil não tem partidos. Não é como os EUA, por exemplo, que possuem ideologia, um partido que vota coeso, um plano de governo. Aqui cada um vota como quer, os partidos servem só para fazer alianças e ganhar ministérios.

Não pude responder, porque não havia base para qualquer opinião nisso, contra ou a favor. Engana-se quem acha que fico satisfeito com o nível “bar” de conversa de política; não posso apenas argumentar citando um caso como prova, sou estatístico, tenho brios. Disse que iria pensar a respeito, e esse post é o que pensei a respeito, minha tentativa de responder a pergunta que vai no título.

Antes de mais nada, esse não é um blog político e esse não é um post político. Se você está buscando gritos de “FORA PT” ou “CHORA TUCANADA”, abra seu Facebook, não este site.

Usando meu comportamento obsessivo, o mesmo que me fez, em maio do ano passado, compilar o mês de aniversário de quase 400 jogadores de futebol, passei algumas horas no site do senado brasileiro e juntei os votos de todos os senadores brasileiros nas decisões da casa no ano de 2012. Não foi fácil, porque o site não é feito para esse tipo de análise. Cada senador possui uma página pessoal, com um arquivo pdf para cada ano e as decisões são escritas nesse arquivo.

Descobri nesse processo que, ainda que o voto seja obrigatório ao brasileiro, não é aos senadores. Existe uma modalidade de voto chamada P-NRV, presente – não registrou voto. O exemplo que dei acima, o arquivo pdf do senador Aloysio Nunes, não foi escolhido por acaso, ele é um dos dois casos de senadores que registrou voto em todas as votações abertas. Se quiser um exemplo do uso de P-NRV, recomendo o pdf de José Sarney, ele votou em apenas três votações abertas. ((Muito provavelmente por ser o presidente do Senado. Ainda que ele não seja impedido de votar, como os presidentes de comissões são em assuntos de sua comissão, Sarney provavelmente prefere deixar seu voto para ser a Minerva nos empates.))

Outra particularidade é a proporção de votações abertas e secretas. Em 2012 tivemos 36 votos abertos e 46 secretos, o que prejudicava um pouco mais minha vida, pois reduzia minha base de dados. Todos os votos, sendo 1 para “Sim”, -1 para “Não” e 0 para a não emissão de voto, por qualquer motivo, você encontra no link.

Em minha análise contei 75 senadores. O leitor atento pode não gostar, pois o Senado possui 81 senadores, mas tive que excluir os que entraram apenas como suplentes em 2012. Muitos começaram o mandato apenas em outubro, a quantidade de informação acrescentada é baixíssima, posso exclui-los sem medo.

E uma vez que tenho essa base de dados (75 senadores em 36 decisões), posso me divertir. A matemática não é difícil, a parte difícil foi caçar os votos no site do Senado. Estamos atrás da chamada matriz de correlação dos votos. Sem entrar em detalhes, essa matriz me diz o seguinte:

Na linha $i$ e coluna $j$ terei um valor. Se esse valor é positivo, o senador $i$ costuma votar de forma coerente ao senador $j$. Se é negativo, eles costumam emitir votos opostos. Quanto mais alto, maior é essa correlação entre eles. Se é muito negativo, eles divergem em muitas decisões.

Usando algumas técnicas interessantes, que infelizmente não cabem em um post nível Rookie ((O autovetor associado ao maior autovalor da matriz de correlação nos dá o primeiro componente principal, o que é o equivalente a saber o quão “governista” ou “oposicionista” um senador é!)) , pude ordenar os senador em “governismo”, ou seja, colocá-los em uma escala de mais governo ou mais oposição. Sem incluir nomes ou partidos, a matriz de correlação tem essa cara:

senadores_1Para ler esse gráfico, basta pensar que quando um quadrado é bem vermelho, então os senadores equivalentes a aquela linha e coluna votam juntos. Se está bem azul, eles costumam votar bem diferente. É claro que a diagonal será bem vermelha, pois ela representa um senador consigo mesmo, e essa é a correlação máxima, uma pessoa sempre vota consigo.

Mas note que há dois grupos bem distintos de senadores. O primeiro bloco, no canto inferior esquerdo, possui alguns pontos vermelhos entre si e é essencialmente azul quando comparamos ao outro bloco. O bloco dominante, o do canto superior direito, também é coerente entre si e profundamente azul com o outro bloco. Nesse gráfico, podemos perceber que no Senado, há bem definidas oposição e situação. Isso fica mais fácil se eu sinalizar esses blocos, de onde conseguimos extrair ainda mais informação:

senadores_2Percebemos mais alguns detalhes aqui. Esse mapa pode ser lido em “blocos”. O quadrado oposição-oposição indica a coerência interna daquele bloco, enquanto o oposição-governo indica o quanto esses blocos diferentes votam juntos. O governo possui muito mais regiões vermelhas, o que indica coesão e correlação entre os votos, enquanto a oposição está cheia de pontos azuis. Isso é a confirmação estatística do que sempre se disse da política atual brasileira, que a oposição não apenas é menor, mas é desunida e não vota de maneira coerente. O governo, no entanto, possui uma larga região coerente e garante, com isso, um senado tranquilo para quem está no poder.

Esse gráfico ainda não responde meu amigo, porque eu não considerei partidos em nenhum momento. Eu descobri dois grupos, e os chamei de oposição e governo, mas apenas fiz isso porque sabia quais partidos eram majoritários em cada bloco. O bloco que contém o PT é o que chamei de governo, enquanto o outro é a oposição; mas vale a pena analisar se esses blocos coincidem com os partidos políticos tradicionais.

Aquela matriz possui uma ordem, eu a ordenei propositalmente para encontrar esses dois blocos; mas agora posso mudar a ordem respeitando os partidos políticos. Como são muitos, anotarei apenas os maiores para que vocês consigam, olhando para os blocos partidários, notar duas coisas:

  • O bloco “interno” do partido, as correlações dele consigo mesmo, situados na diagonal da matriz. Isso dará uma ideia do quão coerente os membros de um partido são com os membros do mesmo partido.
  • Os blocos “externos”, por exemplo, o bloco PSDB-PT nos permite ver o quanto esses dois partidos votaram juntos (presença de vermelho) ou divergiram (presença de azul)

A ordem de todos os partidos, para incluir os omitidos, é: PSDB – PSOL – DEM – PDT – PR – PMDB – PTB – PSD – PSC – PP – PT – PSB – PV – PCdoB – PRB. Esse gráfico já é bem mais interessante. Ele é diferente do anterior porque ordenei as linhas e as colunas para se tornarem blocos partidários, e podemos, com isso, tirar as seguintes conclusões:

  • Os únicos partidos de oposição são PSDB, DEM e, surpreendentemente, PSOL. O senador psolista não apresenta grande correlação com ninguém, mantendo uma coloração verde-água em toda sua linha; infelizmente ele é apenas um e é difícil tirar estatística de um ponto para confirmar a independência política do PSOL.
  • PSDB apresenta razoável coerência interna, mas não se compara à coerência petista. O tom vermelho no bloco interno no PT mostra que o partido costuma votar junto, com raras exceções, sendo Ana Rita, do Espírito Santo, a que mais contraria seu partido.
  • O caso do PMDB é talvez o mais interessante. Compare o bloco interno desse partido com a figura completa, a primeira que coloquei, são quase iguais! A estrutura interna do PMDB é como a estrutura do senado todo, ou seja, o PMDB possui a mesma estrutura partidária que nenhuma estrutura partidária! Esse também é o caso do PR, mas ele possui menos membros e é difícil extrair estatística de poucos pontos.
  • O bloco interno do PDT possui mais correlações negativas que positivas, tornando esse partido o mais incoerente de todo o Senado. Esses senadores mais divergiram que concordaram nas decisões. Estatisticamente falando, eu os teria colocado em extremos opostos na orientação partidária.
  • O DEM é o partido “do contra”. Seu lado da matriz sendo um rio de azul escuro, esse partido faz jus ao título de oposição.

Após a publicação desse post, recebi muito feedback e, em especial, Filipi Nascimento Silva, do grupo de sistemas complexos do Instituto de Física da USP de São Carlos, reproduziu minha análise com alguns softwares mais bonitinhos, um trabalho mais fino, e o resultado é lindo. Ele representa os senadores em um grafo, cada senador é um ponto e, quanto mais próximos os senadores, maior é a coerência entre seus votos. Senadores muito distintos votam drasticamente diferente, enquanto grupos concentrados votam juntos. Ele fez o favor de colorir de acordo com os principais partidos, apresento os resultados:

PartidosFilteredNotamos que, felizmente, sua análise concorda com a minha. Temos dois grupos, um muito mais coeso que o outro, temos o PSDB lutando para ser alguma coisa, o PT profundamente concentrado no centro da região governista, o PMDB espalhado para todo canto e o PDT nos extremos mais diversos do grafo.

Todas essas conclusões são baseadas, infelizmente, em pouca informação; mas acabei me empolgando e provavelmente farei algo mais completo no futuro. Naquela discussão, meu amigo citou o dito do governo ainda imperial, que não há nada mais conservador que um liberal no poder, não posso concordar. A política brasileira atual é mais vasta e complexa, não há apenas dois, há tantos partidos no Brasil, e todos são muito diferentes. Há os que apresentam mais coerência que outros, há os que não parecem querer ter coerência interna, há oposição, há governo, há os que parecem ter sido juntados em um mesmo partido ao acaso, e há os que desejam ser maioria a todo custo.

Esse estudo me convenceu de que há muito a se ganhar se tanto o Senado quanto o Congresso disponibilizarem de forma clara os votos de cada representante. Foi um sacrifício encontrar e extrair esses dados, e acredito profundamente que uma melhora na disponibilidade e exposição desses dados acrescentaria muito ao discurso político. Quanto ao voto secreto do Senado, confesso, incomoda-me. Não questiono o aspecto político do segredo, mas não gosto; se precisasse escolher, pediria para que o abolissem, se não pela transparência e clareza, pela estatística.