Ferramenta para detectar fake news é desenvolvida pela USP e pela UFSCarAcessível via WhatsApp e na internet, plataforma que possibilita checar se uma notícia é falsa ou verdadeira está em fase de testes e aperfeiçoamento Foto: Reprodução Quantas vezes você já recebeu uma informação via um aplicativo de troca de mensagens instantâneas, como o WhatsApp, ou leu uma notícia circulando pela internet e gostaria de checar a veracidade do conteúdo? Agora, já é possível fazer essa verificação usando uma ferramenta piloto criada por um grupo de pesquisadores da USP e da Universidade Federal de São Carlos (UFSCar). A plataforma está em fase de testes e aperfeiçoamento, mas já é possível acessá-la gratuitamente via web ou pelo WhatsApp. “A gente sabe que, quando uma pessoa está mentindo, inconscientemente, isso afeta a produção do texto. Mudam as palavras que ela usa e as estruturas do texto. Além disso, a pessoa costuma ser mais assertiva e emotiva. Então, uma das formas de detectar textos enganosos é medir essas características”, explica o professor Thiago Pardo, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. Pesquisador do Núcleo Interinstitucional de Linguística Computacional (NILC), Thiago é o coordenador do projeto que resultou na criação da plataforma e na publicação do artigo Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results, apresentado no final de setembro na 13ª Conferência Internacional de Processamento Computacional do Português. “A ideia é que a ferramenta seja um apoio para o usuário. Ainda estamos no início desse projeto e, no estado atual, o sistema identifica, com 90% de precisão, notícias que são totalmente verdadeiras ou totalmente falsas”, pondera o professor. “No entanto, as pessoas que propagam fake news costumam embasar suas mentiras em fatos verdadeiros. Nossa plataforma ainda não tem a capacidade de separar as informações com esse nível de refinamento, mas estamos trabalhando para isso”, completa Thiago. Para ver como a ferramenta funciona no WhatsApp, por exemplo, pegue seu smartphone e acesse este link: https://otwoo.app/nilc-fakenews. Automaticamente, uma janela de troca de mensagens do aplicativo se abrirá e você vai ler “Nilc-FakeNews” na tela. Basta apertar a tecla enviar e, imediatamente, você receberá outra mensagem: “Olá! Seja bem-vindo ao detector de fake news do NILC-USP – Detecção Automática de Notícias Falsas para o Português! O sistema irá utilizar o modelo de detecção para avaliar se a notícia é falsa ou verdadeira. Insira o corpo de uma notícia.” Pronto, você acabou de acessar o sistema de verificação! Agora, é só colar a notícia que deseja checar. Se forem verificados indícios de fake news, o sistema alertará: “Essa notícia pode ser falsa. Por favor, procure outras fontes confiáveis antes de divulgá-la”. Após cerca de 20 minutos sem uso, é necessário reativar o acesso ao sistema. Para isso, basta digitar a palavra “Fake” e apertar enviar. Você receberá novamente a mensagem “Olá! Seja bem-vindo…”. Em seguida, pode colar outra notícia e enviar para checagem. Ensinando o computador – Mas como os pesquisadores conseguiram ensinar o computador a identificar o que é mentira e o que é verdade, se essa tarefa é difícil até mesmo para nós, seres humanos inteligentes? É aí que entram as técnicas da área de inteligência artificial. Para tornar a máquina capaz de reconhecer as características dos textos mentirosos e a dos textos verdadeiros, bem como diferenciá-los, uma série de passos precisa ser realizada. O primeiro desafio é construir um conjunto de notícias falsas e verdadeiras em português. É a partir do reconhecimento das características desse conjunto de dados que o computador poderá ser treinado para avaliar futuros textos. São as informações que os humanos inserem nas máquinas e os padrões criados para analisar cada conjunto de dados que modelam os sistemas computacionais para que realizem futuras tarefas. Essa é a mesma tecnologia que possibilita ao Facebook, por exemplo, reconhecer faces. Mas por que, então, quando o Facebook começou a fazer reconhecimento facial o índice de acerto era maior quando aparecia o rosto de alguém branco e ocidental? Ora, por causa do viés que havia no conjunto de faces utilizado para treinar a plataforma: a maioria eram imagens de rostos de seres humanos brancos e ocidentais. A questão gerou uma série de críticas à empresa e demandou um aprimoramento da ferramenta. No caso da plataforma criada para detectar fake news, o conjunto de notícias utilizado é composto por 3,6 mil textos falsos e 3,6 mil verdadeiros, que foram publicados na web entre janeiro de 2016 e janeiro de 2018. Esses textos foram coletados manualmente e analisados para garantir que apenas os que fossem totalmente falsos ou totalmente verdadeiros compusessem o conjunto, que está disponível para utilização em outras pesquisas (veja neste link: icmc.usp.br/e/f9049). Os conhecimentos da área de inteligência artificial entram em campo na sequência: os cientistas usam técnicas computacionais para processar os textos coletados automaticamente, fazer a classificação gramatical de todas as palavras, separar cada sentença e cada termo (incluindo pontuações e números). Depois, é hora de identificar as características presentes nesses textos que poderiam ser empregadas para classificá-los em falsos ou verdadeiros. Como os textos verdadeiros costumam ser mais extensos que os falsos, a quantidade de palavras e sentenças não é um fator adequado para diferenciá-los. “Se usássemos esse critério, o sistema teria a tendência de classificar todos os textos curtos como falsos e os extensos como verdadeiros”, explica o doutorando Roney Lira, do ICMC. Para evitar isso, os pesquisadores utilizaram outros parâmetros como o número médio de verbos, substantivos, adjetivos, advérbios e pronomes presentes nos textos. “Das 3,6 mil notícias falsas que coletamos, 36% possuíam algum erro ortográfico, enquanto apenas 3% das verdadeiras apresentavam esse problema”, pondera Roney. Por isso, a presença de um erro ortográfico passou a se tornar um parâmetro relevante para a verificação da veracidade dos textos. Afinal de contas, a probabilidade de uma notícia ser falsa é muito maior se houver um erro ortográfico. Na penúltima etapa, os pesquisadores lançam mão de outra técnica de inteligência artificial: “Empregamos métodos clássicos de aprendizagem de máquina, que estão entre os mais utilizados atualmente, e conseguimos treinar o sistema com um índice de 90% de acerto na classificação das notícias”, diz Thiago. O professor explica que o índice de acerto é alto porque o sistema avalia, simultaneamente, diversas propriedades presentes nos textos. Aprendendo e avançando – Cursando Ciências de Computação no ICMC, o estudante Rafael Augusto Monteiro é um dos colaboradores do projeto, do qual participou por meio de uma iniciação científica. Ele já sonha com os desafios futuros: “Nosso intuito inicial foi trabalhar com textos escritos, pois são uma unidade fundamental para análise em linguística computacional. Mas queremos expandir o projeto e passar a avaliar imagens, vídeos, áudios, abarcando outras mídias”. Já Roney pretende, durante o doutorado, eliminar uma das principais limitações do detector de notícias: avaliar textos que contém partes falsas e verdadeiras, separando o joio do trigo. “O próximo passo é tentarmos fazer checagem de conteúdo automaticamente, algo que as agências de notícias e os jornalistas fazem hoje manualmente”, conta Thiago. O professor também quer avançar na detecção de outros tipos de conteúdos enganosos (do inglês, deception) como as revisões falsas de produtos e os textos satíricos. “A mesma tecnologia da detecção de fake news pode ser usada nesses outros casos mediante adaptações. Nas notícias falsas, o grau de emoção do texto faz diferença. Em textos satíricos, como há sempre exagero, humor, espera-se encontrar alto teor emocional. Então, talvez essa característica deixe de se tornar relevante. Por outro lado, na revisão de produtos, é necessário checar as informações técnicas, por exemplo” (Texto e fotos: Denise Casatti/Arte das tabelas: Fernando Mazzola). | Por que os vazamentos de dados têm de ser uma preocupação de todos nósWander Cunha (*) A venda de dados pessoais é um tema recorrente em grande parte do noticiário. Mas, de fato, o que significa isso? Antes de entender o impacto desse assunto tão presente no dia a dia, é necessário dar um passo atrás e entender o que significa cibersegurança. Para grande parte das pessoas, essa palavra está associada a remover vírus do próprio PC e evitar clicar em e-mails de SPAM ou, em outro extremo, parece sinônimo de um mundo mágico de filme de ação, em que agentes secretos precisam ser envolvidos para desvendar algum dado misterioso. (*) É diretor da Minsait, empresa de Transformação Digital da Indra. |
146 views
20 mins