Você já ouviu falar em data mining ou mineração de dados?
Consiste em pegar um banco de dados gigantescos e disparar um software para buscar alguma tendência de ocorrência que se sobressaia às outras.
É muito usado no marketing para encontrar comportamentos do consumidor de determinados varejos, por exemplo. O caso mais clássico, que se usa em toda palestra de negócios sobre o assunto é o das fraldas e da cerveja.
Através da mineração de um banco de dados enorme que trazia informações de tickets de compras de uma rede de supermercados, se descobriu uma alta incidência de cupons fiscais que continham, ao mesmo tempo, fraldas descartáveis e cerveja. De posse da informação curiosa, o departamento de marketing da empresa conseguiu criar, estrategicamente, ações promocionais que se aproveitassem dessa predisposição de parcela dos consumidores. Então, caminhos estratégicos foram abertos, como: fazer um ponto extra nas lojas onde fraldas ficavam posicionadas ao lado de cervejas, anunciar promoções com os produtos próximos em um folheto de ofertas, negociar com os fornecedores desses itens melhores preços, tendo em vista promoções combinadas que aumentassem as vendas etc.
Apesar de todos ficarmos nos perguntando “por que, diabos, essa conjunção de fraldas com cerveja tinha uma incidência fora da curva?” — e, certamente a gente consegue imaginar alguns motivos — a resposta importa muito menos do que o fato em si. O universo está cheio de coincidências inexplicáveis. Nem tudo é uma teoria da conspiração ou acontece sempre de forma aleatória e bem distribuída em um universo de grandes proporções.
A Natura, gigante dos cosméticos e do marketing de rede, tem servidores de dados rodando 24 horas por dia softwares de mineração de dados. Todas as decisões estratégicas passam pelas descobertas em seu big data. O programa sai procurando ocorrências fora da curva, como, por exemplo: o hidratante X é mais vendido por consultoras com a idade acima de Y; as vendas das consultoras com domicílio do bairro Z têm menos problemas de entregas; as consultoras que se chamam “Maria” ficam menos tempo na empresa do que as demais. Imaginem a quantidade de informações que podem — e são! — usadas diariamente para tomadas de decisão dos gestores de todos os setores.
Uma empresa de mineração de dados, poderia, hipoteticamente, pegar o arquivo dos resultados das 400 mil urnas das últimas eleições brasileiras, colocá-los para minerar e descobrir, por exemplo, que um candidato teve mais votos do que ele mesmo nas seções cujos números acabam com “2” (102, 42, 252…). Ou que seu concorrente teve mais votos nas cidades cujos nomes são compostos por mais que uma palavra, como “São José do Oeste”, São Paulo”, “Passo Fundo”… Deu pra entender a infinidade de tendências de “coincidências” que um sistema de mineração de dados pode encontrar em um gigantesco banco de dados?
Quando se faz um estudo científico, sempre se parte de uma hipótese. É a partir dela que o processo se desenrola. Pode ser chamado de pseudociência, quando um dos muitos itens do método científico é descartado para induzir o estudo ao resultado que se pretende. Tentar encontrar indícios que sua hipótese está correta é fácil. A verdadeira pesquisa isenta deve ir atrás também de encontrar dados que provem que a sua hipótese está ERRADA. Essa é a principal armadilha em que os cientistas, ou pseudocientistas, caem. É difícil se distanciarem de suas paixões, de suas crenças prévias. As pessoas ficam cegas quando entram dispostas apenas a enxergar o que desejam enxergar.
Inventaram o conceito de urna audtitável e não-auditável para colar na opinião pública o resultado da mineração que mostrou uma tendência em determinados modelos mais antigos. Todas usam o mesmo software, que foi disponibilizado publicamente à análise de profissionais inscritos. O software é previamente auditável. O padrão se da em todas as regiões, menos na… Sul. “Ah, mas há de ter uma resposta plausível pra isso!”
Inventam que seções inteiras desaparecerem da listagem do TSE, quando se sabe que, de fato, houve a unificação de dezenas de milhares delas. Eram 473 mil e foram pouco mais de 400 mil agora. E vai reduzir mais.
Inventam uma narrativa sobre as 144 urnas nas quais houve 100% votos para Lula, quando em 2018 havia mais ainda para Haddad e ele perdeu. Urnas de comunidades, tribos, onde é perfeitamente plausível que haja uma adesão total contra Bolsonaro, que profere publicamente palavras de ódio contra eles. Não representam poucos milhares de votos. Mas é isca perfeita para pessoas que estão sedentas por confirmar suas crenças.
Tios, pais, avós aliciados pelas estratégias doentias do clã, sendo usados como massa de manobra, sofrendo sequelas psicológicas permanentes. Estão sendo afastados de seus familiares, achando que estão salvando o país.
Não é assim que salva um país. Se salva o país votando direito. Mas o Brasil preferiu o “voto útil”. Esse impasse entre os candidatos com as maiores rejeições vai continuar por muitas eleições.