Confira entrevista com Claudia Maria Bauzer Medeiros, professora do Instituto de Computação da Unicamp e membro da coordenação do programa eScience e Data Science da Fapesp.
No vasto campo da computação, onde algoritmos e dados moldam o futuro, surge uma figura inspiradora que vem quebrando barreiras e desbravando novos caminhos. Claudia Maria Bauzer Medeiros, professora do Instituto de Computação da Unicamp e membro da coordenação do programa eScience e Data Science da Fapesp, tem uma trajetória marcada pela inovação e pela luta por uma ciência mais democrática e inclusiva. Primeira mulher a presidir a Sociedade Brasileira de Computação (SBC), uma das mais importantes entidades científicas da América Latina, Claudia Medeiros é reconhecida não apenas por suas contribuições técnicas, mas também por sua incansável defesa de uma ciência que reflete a diversidade da sociedade. Ao longo de sua carreira, foram várias suas iniciativas para tornar a área mais democrática e acessível. “Sofremos, cada vez mais, com a explosão de notícias falsas e da facilidade com que são divulgadas por meio de redes sociais. Como educar o público em geral para questionar divulgações que parecem verdade, mas são falsas?”, questiona. A pesquisadora ainda lembra que o princípio básico da Ciência Aberta é que a Ciência é um bem público e um direito básico da humanidade, e que o compartilhamento de dados possibilita novas e descobertas, “Na verdade, as pesquisas em vacinas e saúde coletiva durante a pandemia são consideradas como um exemplo importante dos benefícios da abertura de dados dentro desse paradigma”. Em um campo historicamente dominado por homens, ela tem se destacado como uma voz firme em prol da equidade de gênero, inspirando novas gerações de mulheres a se aventurarem no universo da computação. Em tempos de Inteligência Artificial, vem ajudando a desmistificar a área, apontando desafios e oportunidades. “Um risco pouco mencionado é o da marginalização de muitas populações que, por não produzirem dados ou não terem acesso ao mundo digital, não contribuem para que os resultados da IA generativa sejam mais imparciais e equitativos”, pontua.
Leia a entrevista completa.
Ciência & Cultura – O que a levou a se interessar por eScience e Data Science, e como vê a evolução dessas áreas no Brasil? Como o avanço em Data Science pode contribuir para soluções inovadoras em diferentes setores?
Claudia Maria Bauzer Medeiros – Antes de tudo, preciso definir esses termos. O termo eScience não é muito conhecido no Brasil, o que leva a desentendimentos sobre o significado. Trata-se de pesquisa multidisciplinar que envolva, ao mesmo tempo, pesquisa em Computação e em alguma outra área do conhecimento — ou seja, muito amplo. Já Data Science (Ciência de Dados) tornou-se conhecido há algum tempo. Trata basicamente de analisar grandes volumes de dados, gerados por pessoas ou por software, para descoberta de conhecimentos, combinando alguns ramos da Computação, Estatística e Matemática. Além disso, necessário para ambas, existe a noção de Data Engineering (Engenharia de Dados) que envolve todo um conjunto de pesquisas e técnicas de preparo, armazenamento e disponibilização de dados para que o resultado das análises em eScience ou Data Science sejam o mais confiáveis possível. Às vezes o trabalho de Engenharia fica desapercebido, apesar de muito demorado e criterioso, porque os resultados finais são mais valorizados. Não existe eScience, ou Data Science, ou qualquer tipo de análise computacional de dados, sem Engenharia de Dados. A Engenharia sempre requer a presença das pessoas que geraram os dados e também das que vão precisar dos resultados de análise — porque a qualidade de um resultado depende de quem fornece os dados e dos objetivos de quem vai usá-los. Entrei na área de pesquisa em eScience em 1994, antes mesmo do nome, ao começar a coordenar projetos de pesquisa multidisciplinar envolvendo engenharia de dados (e, posteriormente, também ciência de dados) e outras áreas do conhecimento. É fascinante trabalhar com gente que tem problemas muito interessantes e que não são de Computação, o que me permitiu conhecer novos mundos, abrindo meus olhos para problemas e maravilhas que eu nunca soube que existiam. Ao mesmo tempo, criei um dos primeiros laboratórios de pesquisa na área, na Unicamp, que este ano completa 30 anos de atividades ininterruptas com pesquisas em saúde, biodiversidade, planejamento urbano, planejamento ambiental, esportes, agricultura e muitos outros domínios de pesquisa, sempre com colaboradores em Computação e outras áreas, no Brasil e no exterior.
“Disponibilizar resultados em repositórios abertos permite a colaboração sem fronteiras, a atração de novos parceiros e facilita a reprodutibilidade em pesquisa.”
C&C – Como o avanço em Data Science pode contribuir para soluções inovadoras em diferentes setores?
CMBM – As perspectivas são excelentes em todo o mundo. No Brasil, inúmeros exemplos de avanços, tanto em pesquisas mais teóricas quanto em aspectos aplicados, muitos de cunho social. Para lhe dar uma ideia, muito do que se faz em pesquisa envolvendo Inteligência Artificial (IA) hoje pode ser considerado eScience (se for aplicada a alguma área fora da Computação) ou Data Science (pelas técnicas avançadas de dados). Agricultura, saúde, clima, cadeias de produção industrial, e tantas outras áreas em que há necessidade de descobertas em Computação para contribuir para descobertas nessas áreas.
C&C – A ciência aberta tem ganhado destaque nos últimos anos. Em sua opinião, quais são os principais benefícios da ciência aberta para a comunidade científica e para a sociedade em geral?
CMBM – O princípio básico de Ciência Aberta é que a Ciência é um bem público e um direito básico da humanidade. Além disso, se uma pesquisa é desenvolvida com dinheiro público, os resultados devem ser públicos e amplamente divulgados e compartilhados. Esses fatos estão explícitos no documento votado na Assembleia Geral da Unesco em novembro de 2021, recomendando a todos os países-membro (incluindo o Brasil) a sua adoção. Vale a pena ler o texto produzido pela Academia Brasileira de Ciências (ABC) sobre Ciência Aberta, com recomendações para a comunidade científica e o governo. Esta base de princípios leva a alguns benefícios da Ciência Aberta — ao disponibilizar resultados em repositórios abertos, permite colaboração sem fronteiras, a atração de novos parceiros e facilita a reprodutibilidade em pesquisa. Também devido à disponibilização dos resultados, é possível reutilizá-los em outras pesquisas, com consequente avanço mais rápido do conhecimento e economia de recursos (pois com reuso não há necessidade de tentar refazer a mesma pesquisa). Além disso, é um modelo de pesquisar que permite verificação e auditoria, pela própria abertura, diminuindo a possibilidade de fraudes. Aqui vale a pena mencionar que, quando motivados pela Ciência Aberta, disponibilizamos resultados (artigos, dados, software, metodologias e outros) em repositórios, tais resultados podem ser reutilizados por gente que não conhecemos — e que talvez ainda nem tenha nascido. Ou seja, possibilitando novas descobertas que nem imaginamos e que beneficiem a sociedade nesta e em gerações futuras. Há exemplos muito interessantes de como dados coletados há séculos por pesquisadores, a partir da sua disponibilização recente, estão sendo usados nas pesquisas de mudanças climáticas, ou de migrações e interações sociais. Os benefícios do compartilhamento sem fronteiras (geográficas, políticas, culturais, temporais) se tornaram evidentes durante a pandemia de covid-19. A produção de vacinas aceleradamente, como nunca visto antes, foi possível, segundo muitos, pelo fato de que os resultados de pesquisas em vários países foram rapidamente compartilhados entre os grupos interessados. Na verdade, as pesquisas em vacinas e saúde coletiva durante a pandemia são consideradas como um exemplo importante dos benefícios da abertura de dados dentro desse paradigma. Precisamos lembrar também que muita coisa não pode ser aberta para todos, por razões éticas, ou legais — por exemplo, dados pessoais, ou software sujeito a patente. Há, inclusive, uma frase muito comum associada, normalmente associada a dados, mas extensível a software — “tão aberto quanto possível, tão fechado quanto necessário”. Finalizando a resposta, minha pesquisa é na área de dados, mas também trabalho um pouco com software. Há uma grande quantidade de software desenvolvido em pesquisas que pode — e deve — ser disponibilizada para ajudar quem quer realizar, por exemplo, simulações e não precisa re-desenvolver tudo. O Linux é um exemplo importante de software desenvolvido por uma imensa comunidade internacional, totalmente aberto, cujas contribuições para a pesquisa e para a sociedade são inegáveis.
“A estratégia é fazer com que as instituições envolvidas reconheçam a importância da divulgação científica de qualidade, que passa a valer como, por exemplo, a publicação de artigos científicos.”
C&C – A divulgação científica é essencial para aproximar a ciência do público. Como informar melhor a sociedade sobre as descobertas científicas, visando a plena cidadania?
CMBM – Aqui há três problemas que se combinam, cada um levando a uma estratégia diferente. O primeiro problema é que cientistas não são geralmente treinados a apresentar seus resultados para não especialistas ou leigos. Isso exige adaptação de vocabulários, analogias que sejam inteligíveis para o público alvo, poder de síntese. O jornalismo científico, ainda pouco disseminado no Brasil, se comparado à América do Norte e Europa, ajuda muito nesse sentido. Só que o jornalista científico não pode ser especialista também em todas as áreas da Ciência — totalmente impossível. Assim, é preciso colaboração com cientistas para que esses jornalistas possam divulgar descobertas para valorizar suas vantagens. A estratégia aqui seria fazer com que cientistas e jornalistas aprendam a trabalhar em conjunto, o que muitas vezes é difícil pela premência das pautas e falta de disponibilidade dos cientistas. O segundo problema é educacional. Sofremos, cada vez mais, da explosão de notícias falsas e da facilidade com que são divulgadas por meio de redes sociais. Como podemos educar as novas gerações para aprenderem a aprender (para serem menos suscetíveis a tais correntes)? Como educar o público em geral para questionar divulgações que parecem verdade, mas são falsas? Se o público acredita em boatos bem estruturados sobre descobertas e, depois, se decepciona, passará a duvidar da ciência. Há estudos recentes nos Estados Unidos que mostram que se os dados associados a um estudo são abertos, as pessoas acreditam mais — aqui, a Ciência Aberta pode ajudar sendo parte da estratégia. Ensinar a buscar fontes fidedignas e a duvidar de afirmações sem base também faz parte da estratégia. O terceiro problema é de políticas de incentivo. Não há reconhecimento, na carreira científica, em geral, mas certamente no Brasil, para pessoas que se dedicam à comunicação científica (a menos dos que fazem pesquisa na própria área). Quais as perspectivas de promoção ou reconhecimento de um cientista da computação (por exemplo) que passa a dedicar todo seu tempo a produzir material de divulgação científica? No entanto, isso é um componente importante da educação de qualidade. Neste caso, a estratégia é fazer com que as instituições envolvidas reconheçam a importância da divulgação científica de qualidade, que passa a valer como, por exemplo, publicação de artigos científicos.
C&C – Quais são os principais riscos associados ao uso da inteligência artificial generativa, tanto em termos de segurança quanto de impacto social? Quais cuidados, inclusive éticos, devem ser tomados?
CMBM – Inteligência Artificial nada mais é que um ramo da Computação, resultante de algoritmos aplicados a dados. Os algoritmos são desenvolvidos por humanos e os dados digitais são produzidos direta ou indiretamente por humanos. Mesmo quando os dados são produzidos por dispositivos (por exemplo, radares, carros, celulares, marca-passos), esses dispositivos são especificados e produzidos por humanos. Assim, os principais riscos são associados a erros humanos — de especificação de algoritmos e dados, ou de uso e interpretação dos resultados. O pior são os erros intencionais, em que há má-fé na seleção de dados ou na codificação dos algoritmos. Isso é verdade para qualquer ramo da Computação, mas se tornando cada vez pior com a proliferação do desenvolvimento de enormes sistemas usando IA generativa. Inclusive, há uma área de pesquisa chamada de IA Responsável combina questões computacionais com questões éticas e exige colaboração multidisciplinar de cientistas de várias áreas, incluindo Filosofia. A IA generativa é um ramo recente da IA, dedicada a processamento de textos, em que os resultados são gerados pelos algoritmos usando padrões descobertos nos dados a partir de “prompts”, com as chamadas técnicas generativas — que geram texto a partir de texto. Hoje em dia, muita gente fala de IA quando, na verdade, está falando de IA generativa, como ChatGPT, BERT, LLAMA, o sistema brasileiro Sabiá e outros. Por detrás de todos esses sistemas de processamento de texto (PLN, ou processamento de linguagem natural) há os chamados grandes modelos de linguagem (large language models – LLM), baseados em predições sobre probabilidade de ocorrência de padrões em um determinado conteúdo. Vale a pena assinalar que modelos de linguagem são usados em IA desde os anos 1980; no entanto, somente com a evolução do hardware e de sistemas de armazenamento e processamento está sendo possível coletar e armazenar informação suficiente para gerar resultados certamente assombrosos. Há um volume gigantesco de dados associados, com centenas de bilhões de parâmetros de configuração e geralmente não se consegue explicar como os resultados foram gerados. Assim, além dos riscos normais de erros humanos e má-fé, há o problema da não explicabilidade. Ou seja, é preciso acreditar (e confiar) no resultado, o que é um perigo. Note que há certos sistemas que são abertos — como o Llama, da Meta (antigo Facebook) — e que permitem analisar a execução do código. Ainda assim, com atualmente até 450 bilhões de parâmetros, tal análise exige técnicas sofisticadas e custosas. Vale a pena destacar os riscos para a educação, saúde, bem-estar e segurança pública. Cada vez mais temos o uso de IA generativa na produção de “fake news”, “fake tiktok”, “fake twitter”, “deepfake”, disseminados por sua vez usando robôs de software, também um tipo de sistema IA. O governo britânico associou recentemente a IA generativa aos tumultos em todo o país que resultaram em depredações em massa em várias cidades, com milhares de policiais acionados e danos imensos ao patrimônio público. Um resumo dos principais riscos pode ser deduzido a partir das novas regulamentações de IA, principalmente a europeia (AI Act, que entra em vigor em 2024) ou americana (US Senate Defiance Act de julho de 2024). A legislação europeia pode ser condensada em quatro pontos importantes: (1) necessidade de documentação do funcionamento dos modelos para possibilitar auditoria; (2) necessidade de ética e transparência, por exemplo, marcando fakes e conteúdo gerado por IA; (3) criação de uma agência para policiar a disponibilização e uso de grandes modelos, com poderes para bloquear tais usos ou impor multas às companhias que os oferecem; (4) proibição do uso de informação biométrica — o que irá dificultar, por exemplo, disseminação de pornografia infantil via IA, ou utilização de dados pessoais na geração e execução de modelos. Já o Defiance Act americano se preocupa principalmente com os chamados deepfakes, que são conteúdos de cunho violento ou pornográfico gerado por IA a partir de imagens ou vídeos reais capturados na Web. Um artigo muito interessante que recomendo a todos sobre os perigos da IA generativa é “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” escrito em 2021 antes do boom dos LLMs. Os autores fazem analogia com “papagaios estocásticos”, exatamente porque o resultado é obtido a partir de processamento estatístico de sequências palavras — segundo eles, não é inteligência, é papagaio que repete. Ressaltam, por exemplo, que além do risco de não se entender como se chegou ao resultado, há um dano ambiental considerável de geração de CO2 causado pelo processamento desses algoritmos — dão um exemplo onde a criação de um modelo LLM gastou 284 toneladas de CO2, enquanto um humano produz 5 toneladas por ano. Destacam, ainda, que como as fontes de dados são a própria web, há um viés inevitável em qualquer resultado, pois a maioria dos dados disponíveis vem de países mais ricos e desenvolvidos, sendo produzidos por jovens, principalmente homens. Assim, um risco pouco mencionado é o da marginalização de muitas populações que, por não produzirem dados ou não terem acesso ao mundo digital, não contribuem para que os resultados da IA generativa sejam mais imparciais e equitativos.
“A desmistificação passa por esclarecer ao público que IA é aplicação de algoritmos a dados, e que benevolência ou malevolência estão nos usos e interpretações dos resultados sem visão crítica.”
C&C – Como a IA já vem sendo usada pela ciência (e por vários setores da sociedade) e quais vantagens oferece?
CMBM – O Plano Brasileiro (IA para o Bem de Todos, lançado em julho de 2024) se preocupa com como tirar proveito dos benefícios da IA, com destaque para a ciência, governo e sociedade. O relatório da Academia Brasileira de Ciências (ABC), de novembro de 2023, cita também várias aplicações, como agricultura ou saúde, e tem toda uma seção dedicada aos problemas éticos. A IA vem sendo usada pela ciência há décadas para, por exemplo, traduzir textos ou descobrir padrões em imagens. Também em setores da sociedade vem há anos ajudando diagnósticos médicos, detectando falhas em equipamentos, ou permitindo monitoramento de chão de fábrica, além do uso rotineiro em finanças (por exemplo, em análise de crédito). A robótica, que é um ramo da IA, vem atuando há muitos anos na exploração do fundo dos oceanos ou de planetas, inclusive auxiliando em situações em que há perigo para humanos, como acidentes em usinas nucleares ou desarmamento de minas. Robôs estão se proliferando em asilos de idosos em países europeus ou asiáticos, em que robôs humanoides auxiliam o acompanhamento dos idosos, e fazem às vezes de “amigo”. Se por um lado auxiliam no controle dos medicamentos, ou verificação de problemas de marcha, a própria necessidade desses robôs sinaliza o crescente isolamento social na era digital, o que é bem triste. Outro exemplo são os veículos autônomos, que precisam dentre outros usar a chamada visão computacional (outro ramo da IA) para identificar objetos e humanos em um trajeto do veículo. Em cada um desses cenários, tudo envolve muita pesquisa. Mais recentemente, a IA generativa está dominando o cenário (e o imaginário) quando se trata de IA. Com ela, as oportunidades de uso na ciência e na sociedade são inúmeras — na detecção de tumores em imagens médicas, no processamento de informações de satélites para a agricultura, em estudos de aquecimento global, na identificação de sites de pornografia infantil, na correção de textos, na produção de vídeos, no planejamento de tráfego, no resumo de conjuntos de artigos e mesmo na codificação de programas simples.
C&C – Quais são os maiores mitos sobre a inteligência artificial generativa e como podemos desmistificar seu uso para o público em geral?
CMBM – Há dois tipos de mito — o de IA benévola e o de IA malévola, sempre toda-poderosa e verdadeira, para o bem ou para o mal. A desmistificação passa por esclarecer ao público que IA é aplicação de algoritmos a dados, e que benevolência ou malevolência estão nos usos e interpretações dos resultados sem visão crítica. E, naturalmente, se dados ou algoritmos não são adequados — quer propositalmente, quer por acaso — o resultado da IA generativa não estará correto. É também importante informar o público em geral sobre o fato de que nem sempre é necessário ou recomendável usar IA para resolver certos problemas. Há muitas questões importantes cuja solução não exige IA, mas apenas algoritmos bem especificados. E que IA, nesses casos, pode ser inclusive contraproducente pela complexidade computacional exigida e também consumo energético considerável. Outra mensagem para passar ao público é que como não se consegue descobrir como a IA generativa produziu um resultado, a sua aplicabilidade ou corretude depende muito das pessoas que usarão os resultados. E, além disso, pensar sempre quais os tipos de viés que estão sendo retratados nos dados usados. De qualquer forma, é uma tecnologia poderosa, que veio para ficar e que, se bem usada, pode acelerar a descoberta do conhecimento, substituir humanos em tarefas repetitivas e apoiar atividades nos mais diversos setores da sociedade.
Saiba mais:
A cientista colecionadora de dados Claudia Maria Bauzer Medeiros