ISSN: 2595-8410 Contato: (11) 3043-4171

Ferramenta para detectar fake news é desenvolvida pela USP e pela UFSCar

Acessível via WhatsApp e na internet, plataforma que possibilita checar se uma notícia é falsa ou verdadeira está em fase de testes e aperfeiçoamento

Foto: Reprodução

Imagem 1 temproario

Quantas vezes você já recebeu uma informação via um aplicativo de troca de mensagens instantâneas, como o WhatsApp, ou leu uma notícia circulando pela internet e gostaria de checar a veracidade do conteúdo? Agora, já é possível fazer essa verificação usando uma ferramenta piloto criada por um grupo de pesquisadores da USP e da Universidade Federal de São Carlos (UFSCar). A plataforma está em fase de testes e aperfeiçoamento, mas já é possível acessá-la gratuitamente via web ou pelo WhatsApp.

“A gente sabe que, quando uma pessoa está mentindo, inconscientemente, isso afeta a produção do texto. Mudam as palavras que ela usa e as estruturas do texto. Além disso, a pessoa costuma ser mais assertiva e emotiva. Então, uma das formas de detectar textos enganosos é medir essas características”, explica o professor Thiago Pardo, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. Pesquisador do Núcleo Interinstitucional de Linguística Computacional (NILC), Thiago é o coordenador do projeto que resultou na criação da plataforma e na publicação do artigo Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results, apresentado no final de setembro na 13ª Conferência Internacional de Processamento Computacional do Português.

“A ideia é que a ferramenta seja um apoio para o usuário. Ainda estamos no início desse projeto e, no estado atual, o sistema identifica, com 90% de precisão, notícias que são totalmente verdadeiras ou totalmente falsas”, pondera o professor. “No entanto, as pessoas que propagam fake news costumam embasar suas mentiras em fatos verdadeiros. Nossa plataforma ainda não tem a capacidade de separar as informações com esse nível de refinamento, mas estamos trabalhando para isso”, completa Thiago.

Para ver como a ferramenta funciona no WhatsApp, por exemplo, pegue seu smartphone e acesse este link: https://otwoo.app/nilc-fakenews. Automaticamente, uma janela de troca de mensagens do aplicativo se abrirá e você vai ler “Nilc-FakeNews” na tela. Basta apertar a tecla enviar e, imediatamente, você receberá outra mensagem: “Olá! Seja bem-vindo ao detector de fake news do NILC-USP – Detecção Automática de Notícias Falsas para o Português! O sistema irá utilizar o modelo de detecção para avaliar se a notícia é falsa ou verdadeira. Insira o corpo de uma notícia.” Pronto, você acabou de acessar o sistema de verificação! Agora, é só colar a notícia que deseja checar. Se forem verificados indícios de fake news, o sistema alertará: “Essa notícia pode ser falsa. Por favor, procure outras fontes confiáveis antes de divulgá-la”.

Após cerca de 20 minutos sem uso, é necessário reativar o acesso ao sistema. Para isso, basta digitar a palavra “Fake” e apertar enviar. Você receberá novamente a mensagem “Olá! Seja bem-vindo...”. Em seguida, pode colar outra notícia e enviar para checagem.

Ensinando o computador – Mas como os pesquisadores conseguiram ensinar o computador a identificar o que é mentira e o que é verdade, se essa tarefa é difícil até mesmo para nós, seres humanos inteligentes? É aí que entram as técnicas da área de inteligência artificial. Para tornar a máquina capaz de reconhecer as características dos textos mentirosos e a dos textos verdadeiros, bem como diferenciá-los, uma série de passos precisa ser realizada.

O primeiro desafio é construir um conjunto de notícias falsas e verdadeiras em português. É a partir do reconhecimento das características desse conjunto de dados que o computador poderá ser treinado para avaliar futuros textos. São as informações que os humanos inserem nas máquinas e os padrões criados para analisar cada conjunto de dados que modelam os sistemas computacionais para que realizem futuras tarefas. Essa é a mesma tecnologia que possibilita ao Facebook, por exemplo, reconhecer faces. Mas por que, então, quando o Facebook começou a fazer reconhecimento facial o índice de acerto era maior quando aparecia o rosto de alguém branco e ocidental? Ora, por causa do viés que havia no conjunto de faces utilizado para treinar a plataforma: a maioria eram imagens de rostos de seres humanos brancos e ocidentais. A questão gerou uma série de críticas à empresa e demandou um aprimoramento da ferramenta.

No caso da plataforma criada para detectar fake news, o conjunto de notícias utilizado é composto por 3,6 mil textos falsos e 3,6 mil verdadeiros, que foram publicados na web entre janeiro de 2016 e janeiro de 2018. Esses textos foram coletados manualmente e analisados para garantir que apenas os que fossem totalmente falsos ou totalmente verdadeiros compusessem o conjunto, que está disponível para utilização em outras pesquisas (veja neste link: icmc.usp.br/e/f9049).

Os conhecimentos da área de inteligência artificial entram em campo na sequência: os cientistas usam técnicas computacionais para processar os textos coletados automaticamente, fazer a classificação gramatical de todas as palavras, separar cada sentença e cada termo (incluindo pontuações e números). Depois, é hora de identificar as características presentes nesses textos que poderiam ser empregadas para classificá-los em falsos ou verdadeiros. Como os textos verdadeiros costumam ser mais extensos que os falsos, a quantidade de palavras e sentenças não é um fator adequado para diferenciá-los. “Se usássemos esse critério, o sistema teria a tendência de classificar todos os textos curtos como falsos e os extensos como verdadeiros”, explica o doutorando Roney Lira, do ICMC. Para evitar isso, os pesquisadores utilizaram outros parâmetros como o número médio de verbos, substantivos, adjetivos, advérbios e pronomes presentes nos textos.

“Das 3,6 mil notícias falsas que coletamos, 36% possuíam algum erro ortográfico, enquanto apenas 3% das verdadeiras apresentavam esse problema”, pondera Roney. Por isso, a presença de um erro ortográfico passou a se tornar um parâmetro relevante para a verificação da veracidade dos textos. Afinal de contas, a probabilidade de uma notícia ser falsa é muito maior se houver um erro ortográfico.

Na penúltima etapa, os pesquisadores lançam mão de outra técnica de inteligência artificial: “Empregamos métodos clássicos de aprendizagem de máquina, que estão entre os mais utilizados atualmente, e conseguimos treinar o sistema com um índice de 90% de acerto na classificação das notícias”, diz Thiago. O professor explica que o índice de acerto é alto porque o sistema avalia, simultaneamente, diversas propriedades presentes nos textos.

Aprendendo e avançando – Cursando Ciências de Computação no ICMC, o estudante Rafael Augusto Monteiro é um dos colaboradores do projeto, do qual participou por meio de uma iniciação científica. Ele já sonha com os desafios futuros: “Nosso intuito inicial foi trabalhar com textos escritos, pois são uma unidade fundamental para análise em linguística computacional. Mas queremos expandir o projeto e passar a avaliar imagens, vídeos, áudios, abarcando outras mídias”.

Já Roney pretende, durante o doutorado, eliminar uma das principais limitações do detector de notícias: avaliar textos que contém partes falsas e verdadeiras, separando o joio do trigo. “O próximo passo é tentarmos fazer checagem de conteúdo automaticamente, algo que as agências de notícias e os jornalistas fazem hoje manualmente”, conta Thiago. O professor também quer avançar na detecção de outros tipos de conteúdos enganosos (do inglês, deception) como as revisões falsas de produtos e os textos satíricos. “A mesma tecnologia da detecção de fake news pode ser usada nesses outros casos mediante adaptações. Nas notícias falsas, o grau de emoção do texto faz diferença. Em textos satíricos, como há sempre exagero, humor, espera-se encontrar alto teor emocional. Então, talvez essa característica deixe de se tornar relevante. Por outro lado, na revisão de produtos, é necessário checar as informações técnicas, por exemplo” (Texto e fotos: Denise Casatti/Arte das tabelas: Fernando Mazzola).

Por que os vazamentos de dados têm de ser uma preocupação de todos nós

Wander Cunha (*)

A venda de dados pessoais é um tema recorrente em grande parte do noticiário. Mas, de fato, o que significa isso?

Antes de entender o impacto desse assunto tão presente no dia a dia, é necessário dar um passo atrás e entender o que significa cibersegurança. Para grande parte das pessoas, essa palavra está associada a remover vírus do próprio PC e evitar clicar em e-mails de SPAM ou, em outro extremo, parece sinônimo de um mundo mágico de filme de ação, em que agentes secretos precisam ser envolvidos para desvendar algum dado misterioso.
O que grande parte das pessoas não sabe, contudo, é que a cibersegurança está presente na vida de todos. Até mesmo daqueles que não têm computador. Quer um exemplo? Hoje, para garantir um sistema eficaz de medição de energia ou de entrega de água, por exemplo, computadores são envolvidos – e, portanto, tem de haver certa segurança para que os comandos executados não sejam burlados e as tarefas sejam cumpridas da maneira correta.
E, é claro, para quem tem acesso à internet – 57,8% da população brasileira, segundo o IBGE – as regras de não clicar em e-mails suspeitos e instalar antivírus nos computadores ainda continuam mais do que válidas em termos de cibersegurança. Nesse ambiente, entretanto, uma outra preocupação surge (e é retratada frequentemente no noticiário): como garantir que empresas a quem você concede dados possam de fato proteger essa informação?
Aí está um grande dilema. Até pouco tempo atrás, empresas não tinham regras específicas para seguir em relação à “prestação de contas” a respeito dos dados que mantinham, um cenário que mudou com a aprovação da GDPR na Europa e trouxe como consequência a aprovação da Lei Geral de Proteção de Dados no Brasil, em meados de maio.
A aprovação da lei representa um primeiro passo importante para trazer luz ao tema e, principalmente, para evidenciar a importância da segurança no mundo online como forma de prevenir danos maiores.
Atualmente, nome completo, telefone, e-mails e outros dados são oferecidos por preços irrisórios na internet. As consequências primárias desse tipo de coisa já estão significativamente mais difundidas: golpes usando phishing por meio de SPAMs são tão populares que diversas “boas práticas” já foram difundidas como maneira de evitar isso.
Mas afinal, como se proteger contra esse tipo de ameaça? Falando em aspecto individual, adotar algumas das melhores práticas de proteção de dados – autenticação de dois fatores e manter todos os sistemas operacionais atualizados, por exemplo – já pode diminuir muito as chances de invasões e roubo de informações valiosas, como senhas de bancos e outros dados pessoais que podem gerar prejuízo aos usuários.
Partindo para um espectro um pouco maior, empresas devem se preocupar com a proteção de dados – já que pelo menos 90% das informações que armazenam são de caráter confidencial.
Paradoxalmente, a cultura de proteção dessas informações em grande parte das organizações ao redor do mundo é relativamente recente, e, em muitas delas, a cibersegurança ainda é vista como um item secundário. De acordo com nossas pesquisas, a metodologia necessária para manter os ataques longe passa por quatro fases principais: análise, modelo documental de gestão dos dados, categorização e por último, a gestão e rastreamento de dados em todo o seu caminho pela empresa.
O primeiro passo tem como foco atingir os objetivos de otimização de processos, localização e categorização de informações “desestruturadas” dentro da companhia. Para isso, é necessário acessar a localidade de cada arquivo em diferentes documentos, processos e sistemas da companhia, fazer uma avaliação dos dados afetados pelo GDPR e fornecer um diagnóstico completo da situação atual da empresa.
A segunda etapa diz respeito à elaboração do “mapa” que vai mostrar a estrutura hierárquica de divisão das informações envolvidas no GDPR em diferentes tipos e subtipos, definição de um esquema de metadados, descrição detalhada das características de cada documento. Com isso, será possível ter um conhecimento completo sobre os dados gerenciados por cada parte da empresa.
Em seguida, o tratamento de dados vai definir características para cada tipo de dados. Na prática, será possível agrupar as informações em um ciclo de vida de acordo com o tipo de cada documento, aplicar sistemas de busca e localização, além de estabelecer mecanismos mais claros quanto ao consentimento relacionado à privacidade dos dados que circulam dentro da empresa. Com isso, é possível ter mais conhecimento sobre o consumidor e orientação clara sobre a proposta de valor relacionada à empresa.
A quarta etapa diz respeito ao fato de que a gestão e o rastreamento de dados trazem como principais resultados a aplicação de estratégias diferenciadas de retenção do consumidor, aumento da confiança dele em relação à marca, o que gera diferenciação da marca em relação às demais.
Mudando um pouco o enfoque para um âmbito de governo, recentemente, a aprovação da GDPR (a Lei Geral de Proteção de Dados), que visa justamente regular a atuação de órgãos públicos e privados em relação aos dados que possuem, representa uma inicativa importante para que organizações e órgãos públicos possam repensar suas iniciativas de cibersegurança e reforçar as iniciativas contra esse tipo de crime.
Somente com o compartilhamento de informações a respeito de fraudes virtuais será possível realizar uma ação eficaz de proteção de dados. Estamos vivendo uma nova era, em que para conhecer as vulnerabilidades e se proteger é necessário atuar em mecanismos de defesa e em ações ofensivas, de modo a tentar descobrir possíveis falhas e corrigi-las rapidamente.
Mais do que fraudes bancárias, o roubo de informações valiosas pode gerar consequências cada vez mais sérias. Atentados terroristas e iniciativas de desconstrução da democracia podem ser apoiadas por dados obtidos de forma ilegal e gerar um preço caro demais para a sociedade pagar. Independentemente de estar conectado ou não, é fundamental ter a consciência de que os computadores controlam grande parte da nossa vida – do fornecimento de água aos equipamentos militares – e deixar essas informações à deriva é como deixar de cuidar das nossas próprias vidas.

(*) É diretor da Minsait, empresa de Transformação Digital da Indra.

Outras Matérias sobre Tecnologia

 

Mais Lidas

Rua Vergueiro, 2949, 12º andar – cjto 121/122
04101-300 – Vila Mariana – São Paulo - SP

Contato: (11) 3043-4171