AI Snake Oil - Quando a IA te engana

Victor Hugo Germano
1 de nov. de 2024
6 min de leitura

Snake Oil Salesman (Crédito: Morgan Weistling)

Nas últimas semanas estive bastante entretido com um livro que parecia ser simples, mas se tornou um grande aliado para entender o momento atual do mercado de Inteligência Artificial, e a aparente loucura que estamos vivendo.

Como executivo de tecnologia, é comum ouvir promessas de ferramentas que se apresentam como transformadoras e que poderão afetar todo o mercado quando alcançarem seu potencial total. É minha responsabilidade é ser cético ao analizar as possibilidades e entender quando estamos sendo enganados. O que todo vendedor de ferramenta quer é maximizar o uso das próprias ferramentas.

Com IA não poderia ser diferente. O grande detalhe é que a tecnologia se ancora nas nossas fantasias e vieses mais profundos para ganhar espaço e não ser questionada. Independente das inúmeras controversas e quase nenhuma evidência concreta envolvendo o uso de machine learning para Reconhecimento Facial, Previsão de Crimes ou até mesmo tempo de vida, muitos de nós seguem acreditando em promessas de uma inteligência superior. Os impactos podem ser trágicos.

Sob essas premissas que Arvind Narayanan e Sayash Kapoo, acadêmicos de Princeton, apresentam esse ano o livro AI Snake Oil, com a proposta de discutir o que realmente funciona em inteligência artificial, e o que é meramente jogada de marketing e abuso de influência com consequência muitas vezes devastadoras de empresas visando apenas surfar no hype atual. Sendo dois acadêmicos com experiência também em grandes empresas de tecnologia, a dupla traz uma visão contundente sobre o tema.

O livro é muito bom, e totalmente recomendável para quem quer entender como esta o momento atual do mercado de inteligência artificial de maneira direta e cética, com centenas de referências para aprofundar ainda mais do que as muitas paginas de conteúdo que o livro apresenta. O material aprofunda no que IA tem mais a oferecer no momento: os problemas. Apesar de todo marketing por traz de empresas que lucram com a venda de ferramentas, existem inúmeros casos de erros, mal uso e problemas que ninguém quer falar a respeito.

"Inteligência Artificial é um tema guarda chuva para um conjunto de tecnologias pouco relacionadas. ChatGPT tem muito pouco a ver com o software que bancos usam para analizar o perfil de uma pessoa para empréstimo. Ambos são declarados como IA, mas para todos os efeitos: a forma como as ferramentas funcionam, por quem elas são utilizadas e como elas falham, não poderia ser mais diferente."

Quanto mais olhamos para o potencial de machine learning, mais nos deparamos com os riscos reais que, por desconhecimento ou má intenção das empresas, não estamos dando a devida atenção.

Um dos pontos mais importantes do livro é quebrar o grande termo de Inteligência Artificial em três temas que normalmente são aglomerados mas que são completamente independentes. Não necessariamente os resultados em IA Generativa significam que qualquer sistema preditivo usando machine learning vai funcionar.

Saber separar as soluções é a melhor forma de ampliar os resultados do uso das ferramentas, e também saber quando não usar. Aqui é o importante dizer que eu sou bastante crítico à tecnologia e suas perspectivas de uso em alto risco e alto impacto, dado que a implantação de ferramentas de ia é movida mais por vislumbre que por necessidade.

"Ao apresentar a tecnologia como sendo super poderosa, críticos exageram suas capacidades enquanto diminuem a ênfase em suas limitações, favorecendo empresas que sempre vão se beneficiar da falta de escrutínio em seus produtos."

São três grandes temas que o livro aborda:

IA Preditiva - A que menos funciona

De forma bastante direta, o livro aborda o fato de que muito provavelmente nenhuma IA preditiva funciona realmente. E apresenta evidência de como empresas costumam maquiar os resultados de suas ferramentas, e exagerar nas capacidades para ganhar mais mídia e efetivamente especular sobre o potencial de seus produtos.

IA Preditiva é sedutora porque torna a tomada de decisão mais eficiente, e é exatamente pela eficiência que perdemos a responsabilidade. Nosso próprio viés de automação nos coloca numa posição de aceitar cegamente os resultados de um sistema preditivo que muitas vezes não é melhor do que jogar uma moeda pra cima.

"A limitação fundamental da IA Preditiva: É possível fazer algumas previsões se nenhuma informação mudar. Mas correlação não é causalidade."

Além de inúmeros casos de falhas no uso de ferramentas, que pretendo explorar em um outro post, talvez o melhor aprendizado aqui seja:

O principal erro de ferramentas de predição está em exagerar os resultados pelo fato de que os dados de treinamento quase sempre são usados para avaliar a precisão dos sistemas. Um erro comum que sempre gera números Inflacionados, facilmente explorados por times de marketing. Afinal: de que adianta um produto de previsão que funciona tão bem quanto escolher aleatoriamente?

Cinco razões pelas quais a IA preditiva falha

Razão	Exemplo
Uma boa previsão pode resultar em uma decisão ruim.	Pacientes com asma podem ser mandados de volta para casa quando chegam ao hospital com sintomas de pneumonia.
As pessoas podem manipular estrategicamente a IA opaca.	Adicionar estantes de livros no fundo aumenta as pontuações em ferramentas automatizadas de contratação.
Os usuários confiam excessivamente na IA sem supervisão ou recurso adequados.	O modelo holandês de detecção de fraudes no bem-estar social acusou falsamente 30.000 pais de fraude sem qualquer recurso.
Os dados para treinar a IA podem vir de uma população diferente daquela em que é usada.	A previsão de risco criminal do PSA baseou-se em uma amostra nacional. Superestimou o risco em condados onde o crime era mais raro.
A IA preditiva pode aumentar a desigualdade.	O Impact Pro da Optum levou a um aumento na diferença na qualidade do atendimento entre pacientes negros e brancos.

IA Generativa - Benefícios e riscos

Talvez por ser o principal tema dos últimos anos em tecnologia, esse seja o tema em que existem mais casos de problemas e de benefícios registrados nos dias atuais. O livro busca apresentar os desafios do uso de ferramentas generativas sob o contexto do impacto real na sociedade.

Já escrevi muito sobre o tema por aqui, que vale a pena seguir para ampliar o repertório. Desde a afirmação absurda que LLMs vão substituir programadores, ao fato de quê não existe IA generativa sem propriedade intelectual de terceiros sem autorização.

IA Moderadora de Conteúdo

Moderação de Conteúdo através da IA é um tema muito importante para redes sociais. Como um tema complexo que atravessa muitos aspectos culturais de nossa existência, é ingenuidade acreditar que através somente da IA nós seremos capazes de atuar corretamente.

Prevenção ao suicídio, discursos de ódio e Copyright são temas tratados dentro dessa esfera, mas que tem sido encarados de formas completamente diferentes. No fim, plataformas como Youtube resolveram os problemas de abuso de conteúdo de propriedade intelectual somente pelo fato que isso tem impacto financeiro direto para a empresa.

Moderação de conteúdo em escala depende de pessoas, e a incompetência cultural de grandes plataformas causa impactos trágicos no mundo, ao ponto de que ações extremas de violência foram sabidamente influenciadas por plataformas sociais, sem que as empresas fossem responsabilizadas

Reprodutibilidade científica

Talvez o ponto mais interessante para mim no livro, é o fato de que ambos os autores investigaram de que forma que as pesquisas atuais que usam Machine Learning cometem erros a ponto de inviabilizar sua reprodução por outros cientistas, um erro grave e que impede o avanço da pesquisa em inteligência artificial.

Um erro comum na área de IA é o fato de que muitos modelos são avaliados através dos próprios dados usados para treinamento dos modelos, que é conhecido como Data Leakage (vazamento). Isso causa um otimismo exagerado nos resultados de um modelo, dando a falsa sensação de sucesso.

Bem, Eles analisaram mais de 600 artigos científicos e encontraram problemas de vazamento de dados em quase todos, o que invalida qualquer afirmação presente nesses documentos!

"Revisamos a literatura acadêmica para encontrar resultados semelhantes aos nossos. Descobriu-se que não faltavam erros devido a vazamentos na ciência baseada em IA. Centenas de artigos em mais de uma dúzia de disciplinas científicas - incluindo medicina, psiquiatria, segurança de computadores, TI e genômica - haviam sido afetados por vazamentos. Um dos artigos com erros foi, na verdade, coautorado por Arvind, mostrando que até mesmo pesquisadores que estudam as limitações da IA podem sucumbir a esses erros."

O problema é tão sério que inclusive existe um site dedicado a tais estudos, para levantar mais consciência ao fato: https://reproducible.cs.princeton.edu

Um livro muito interessante, e que apesar de longo, vai se tornar referência em meus estudos.

Recomendo bastante o livro para quem quer aprofundar no tema, e principalmente quem está buscando uma visão mais cética quando aos benefícios da IA para o grande público.