Contato: (11) 3043-4171

Ferramenta para detectar fake news é desenvolvida pela USP e pela UFSCar

Acessível via WhatsApp e na internet, plataforma que possibilita checar se uma notícia é falsa ou verdadeira está em fase de testes e aperfeiçoamento

Foto: Reprodução

Imagem 1 temproario

Quantas vezes você já recebeu uma informação via um aplicativo de troca de mensagens instantâneas, como o WhatsApp, ou leu uma notícia circulando pela internet e gostaria de checar a veracidade do conteúdo? Agora, já é possível fazer essa verificação usando uma ferramenta piloto criada por um grupo de pesquisadores da USP e da Universidade Federal de São Carlos (UFSCar). A plataforma está em fase de testes e aperfeiçoamento, mas já é possível acessá-la gratuitamente via web ou pelo WhatsApp.

“A gente sabe que, quando uma pessoa está mentindo, inconscientemente, isso afeta a produção do texto. Mudam as palavras que ela usa e as estruturas do texto. Além disso, a pessoa costuma ser mais assertiva e emotiva. Então, uma das formas de detectar textos enganosos é medir essas características”, explica o professor Thiago Pardo, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. Pesquisador do Núcleo Interinstitucional de Linguística Computacional (NILC), Thiago é o coordenador do projeto que resultou na criação da plataforma e na publicação do artigo Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results, apresentado no final de setembro na 13ª Conferência Internacional de Processamento Computacional do Português.

“A ideia é que a ferramenta seja um apoio para o usuário. Ainda estamos no início desse projeto e, no estado atual, o sistema identifica, com 90% de precisão, notícias que são totalmente verdadeiras ou totalmente falsas”, pondera o professor. “No entanto, as pessoas que propagam fake news costumam embasar suas mentiras em fatos verdadeiros. Nossa plataforma ainda não tem a capacidade de separar as informações com esse nível de refinamento, mas estamos trabalhando para isso”, completa Thiago.

Para ver como a ferramenta funciona no WhatsApp, por exemplo, pegue seu smartphone e acesse este link: https://otwoo.app/nilc-fakenews. Automaticamente, uma janela de troca de mensagens do aplicativo se abrirá e você vai ler “Nilc-FakeNews” na tela. Basta apertar a tecla enviar e, imediatamente, você receberá outra mensagem: “Olá! Seja bem-vindo ao detector de fake news do NILC-USP – Detecção Automática de Notícias Falsas para o Português! O sistema irá utilizar o modelo de detecção para avaliar se a notícia é falsa ou verdadeira. Insira o corpo de uma notícia.” Pronto, você acabou de acessar o sistema de verificação! Agora, é só colar a notícia que deseja checar. Se forem verificados indícios de fake news, o sistema alertará: “Essa notícia pode ser falsa. Por favor, procure outras fontes confiáveis antes de divulgá-la”.

Após cerca de 20 minutos sem uso, é necessário reativar o acesso ao sistema. Para isso, basta digitar a palavra “Fake” e apertar enviar. Você receberá novamente a mensagem “Olá! Seja bem-vindo...”. Em seguida, pode colar outra notícia e enviar para checagem.

Ensinando o computador – Mas como os pesquisadores conseguiram ensinar o computador a identificar o que é mentira e o que é verdade, se essa tarefa é difícil até mesmo para nós, seres humanos inteligentes? É aí que entram as técnicas da área de inteligência artificial. Para tornar a máquina capaz de reconhecer as características dos textos mentirosos e a dos textos verdadeiros, bem como diferenciá-los, uma série de passos precisa ser realizada.

O primeiro desafio é construir um conjunto de notícias falsas e verdadeiras em português. É a partir do reconhecimento das características desse conjunto de dados que o computador poderá ser treinado para avaliar futuros textos. São as informações que os humanos inserem nas máquinas e os padrões criados para analisar cada conjunto de dados que modelam os sistemas computacionais para que realizem futuras tarefas. Essa é a mesma tecnologia que possibilita ao Facebook, por exemplo, reconhecer faces. Mas por que, então, quando o Facebook começou a fazer reconhecimento facial o índice de acerto era maior quando aparecia o rosto de alguém branco e ocidental? Ora, por causa do viés que havia no conjunto de faces utilizado para treinar a plataforma: a maioria eram imagens de rostos de seres humanos brancos e ocidentais. A questão gerou uma série de críticas à empresa e demandou um aprimoramento da ferramenta.

No caso da plataforma criada para detectar fake news, o conjunto de notícias utilizado é composto por 3,6 mil textos falsos e 3,6 mil verdadeiros, que foram publicados na web entre janeiro de 2016 e janeiro de 2018. Esses textos foram coletados manualmente e analisados para garantir que apenas os que fossem totalmente falsos ou totalmente verdadeiros compusessem o conjunto, que está disponível para utilização em outras pesquisas (veja neste link: icmc.usp.br/e/f9049).

Os conhecimentos da área de inteligência artificial entram em campo na sequência: os cientistas usam técnicas computacionais para processar os textos coletados automaticamente, fazer a classificação gramatical de todas as palavras, separar cada sentença e cada termo (incluindo pontuações e números). Depois, é hora de identificar as características presentes nesses textos que poderiam ser empregadas para classificá-los em falsos ou verdadeiros. Como os textos verdadeiros costumam ser mais extensos que os falsos, a quantidade de palavras e sentenças não é um fator adequado para diferenciá-los. “Se usássemos esse critério, o sistema teria a tendência de classificar todos os textos curtos como falsos e os extensos como verdadeiros”, explica o doutorando Roney Lira, do ICMC. Para evitar isso, os pesquisadores utilizaram outros parâmetros como o número médio de verbos, substantivos, adjetivos, advérbios e pronomes presentes nos textos.

“Das 3,6 mil notícias falsas que coletamos, 36% possuíam algum erro ortográfico, enquanto apenas 3% das verdadeiras apresentavam esse problema”, pondera Roney. Por isso, a presença de um erro ortográfico passou a se tornar um parâmetro relevante para a verificação da veracidade dos textos. Afinal de contas, a probabilidade de uma notícia ser falsa é muito maior se houver um erro ortográfico.

Na penúltima etapa, os pesquisadores lançam mão de outra técnica de inteligência artificial: “Empregamos métodos clássicos de aprendizagem de máquina, que estão entre os mais utilizados atualmente, e conseguimos treinar o sistema com um índice de 90% de acerto na classificação das notícias”, diz Thiago. O professor explica que o índice de acerto é alto porque o sistema avalia, simultaneamente, diversas propriedades presentes nos textos.

Aprendendo e avançando – Cursando Ciências de Computação no ICMC, o estudante Rafael Augusto Monteiro é um dos colaboradores do projeto, do qual participou por meio de uma iniciação científica. Ele já sonha com os desafios futuros: “Nosso intuito inicial foi trabalhar com textos escritos, pois são uma unidade fundamental para análise em linguística computacional. Mas queremos expandir o projeto e passar a avaliar imagens, vídeos, áudios, abarcando outras mídias”.

Já Roney pretende, durante o doutorado, eliminar uma das principais limitações do detector de notícias: avaliar textos que contém partes falsas e verdadeiras, separando o joio do trigo. “O próximo passo é tentarmos fazer checagem de conteúdo automaticamente, algo que as agências de notícias e os jornalistas fazem hoje manualmente”, conta Thiago. O professor também quer avançar na detecção de outros tipos de conteúdos enganosos (do inglês, deception) como as revisões falsas de produtos e os textos satíricos. “A mesma tecnologia da detecção de fake news pode ser usada nesses outros casos mediante adaptações. Nas notícias falsas, o grau de emoção do texto faz diferença. Em textos satíricos, como há sempre exagero, humor, espera-se encontrar alto teor emocional. Então, talvez essa característica deixe de se tornar relevante. Por outro lado, na revisão de produtos, é necessário checar as informações técnicas, por exemplo” (Texto e fotos: Denise Casatti/Arte das tabelas: Fernando Mazzola).

Por que os vazamentos de dados têm de ser uma preocupação de todos nós

Wander Cunha (*)

A venda de dados pessoais é um tema recorrente em grande parte do noticiário. Mas, de fato, o que significa isso?

Antes de entender o impacto desse assunto tão presente no dia a dia, é necessário dar um passo atrás e entender o que significa cibersegurança. Para grande parte das pessoas, essa palavra está associada a remover vírus do próprio PC e evitar clicar em e-mails de SPAM ou, em outro extremo, parece sinônimo de um mundo mágico de filme de ação, em que agentes secretos precisam ser envolvidos para desvendar algum dado misterioso.
O que grande parte das pessoas não sabe, contudo, é que a cibersegurança está presente na vida de todos. Até mesmo daqueles que não têm computador. Quer um exemplo? Hoje, para garantir um sistema eficaz de medição de energia ou de entrega de água, por exemplo, computadores são envolvidos – e, portanto, tem de haver certa segurança para que os comandos executados não sejam burlados e as tarefas sejam cumpridas da maneira correta.
E, é claro, para quem tem acesso à internet – 57,8% da população brasileira, segundo o IBGE – as regras de não clicar em e-mails suspeitos e instalar antivírus nos computadores ainda continuam mais do que válidas em termos de cibersegurança. Nesse ambiente, entretanto, uma outra preocupação surge (e é retratada frequentemente no noticiário): como garantir que empresas a quem você concede dados possam de fato proteger essa informação?
Aí está um grande dilema. Até pouco tempo atrás, empresas não tinham regras específicas para seguir em relação à “prestação de contas” a respeito dos dados que mantinham, um cenário que mudou com a aprovação da GDPR na Europa e trouxe como consequência a aprovação da Lei Geral de Proteção de Dados no Brasil, em meados de maio.
A aprovação da lei representa um primeiro passo importante para trazer luz ao tema e, principalmente, para evidenciar a importância da segurança no mundo online como forma de prevenir danos maiores.
Atualmente, nome completo, telefone, e-mails e outros dados são oferecidos por preços irrisórios na internet. As consequências primárias desse tipo de coisa já estão significativamente mais difundidas: golpes usando phishing por meio de SPAMs são tão populares que diversas “boas práticas” já foram difundidas como maneira de evitar isso.
Mas afinal, como se proteger contra esse tipo de ameaça? Falando em aspecto individual, adotar algumas das melhores práticas de proteção de dados – autenticação de dois fatores e manter todos os sistemas operacionais atualizados, por exemplo – já pode diminuir muito as chances de invasões e roubo de informações valiosas, como senhas de bancos e outros dados pessoais que podem gerar prejuízo aos usuários.
Partindo para um espectro um pouco maior, empresas devem se preocupar com a proteção de dados – já que pelo menos 90% das informações que armazenam são de caráter confidencial.
Paradoxalmente, a cultura de proteção dessas informações em grande parte das organizações ao redor do mundo é relativamente recente, e, em muitas delas, a cibersegurança ainda é vista como um item secundário. De acordo com nossas pesquisas, a metodologia necessária para manter os ataques longe passa por quatro fases principais: análise, modelo documental de gestão dos dados, categorização e por último, a gestão e rastreamento de dados em todo o seu caminho pela empresa.
O primeiro passo tem como foco atingir os objetivos de otimização de processos, localização e categorização de informações “desestruturadas” dentro da companhia. Para isso, é necessário acessar a localidade de cada arquivo em diferentes documentos, processos e sistemas da companhia, fazer uma avaliação dos dados afetados pelo GDPR e fornecer um diagnóstico completo da situação atual da empresa.
A segunda etapa diz respeito à elaboração do “mapa” que vai mostrar a estrutura hierárquica de divisão das informações envolvidas no GDPR em diferentes tipos e subtipos, definição de um esquema de metadados, descrição detalhada das características de cada documento. Com isso, será possível ter um conhecimento completo sobre os dados gerenciados por cada parte da empresa.
Em seguida, o tratamento de dados vai definir características para cada tipo de dados. Na prática, será possível agrupar as informações em um ciclo de vida de acordo com o tipo de cada documento, aplicar sistemas de busca e localização, além de estabelecer mecanismos mais claros quanto ao consentimento relacionado à privacidade dos dados que circulam dentro da empresa. Com isso, é possível ter mais conhecimento sobre o consumidor e orientação clara sobre a proposta de valor relacionada à empresa.
A quarta etapa diz respeito ao fato de que a gestão e o rastreamento de dados trazem como principais resultados a aplicação de estratégias diferenciadas de retenção do consumidor, aumento da confiança dele em relação à marca, o que gera diferenciação da marca em relação às demais.
Mudando um pouco o enfoque para um âmbito de governo, recentemente, a aprovação da GDPR (a Lei Geral de Proteção de Dados), que visa justamente regular a atuação de órgãos públicos e privados em relação aos dados que possuem, representa uma inicativa importante para que organizações e órgãos públicos possam repensar suas iniciativas de cibersegurança e reforçar as iniciativas contra esse tipo de crime.
Somente com o compartilhamento de informações a respeito de fraudes virtuais será possível realizar uma ação eficaz de proteção de dados. Estamos vivendo uma nova era, em que para conhecer as vulnerabilidades e se proteger é necessário atuar em mecanismos de defesa e em ações ofensivas, de modo a tentar descobrir possíveis falhas e corrigi-las rapidamente.
Mais do que fraudes bancárias, o roubo de informações valiosas pode gerar consequências cada vez mais sérias. Atentados terroristas e iniciativas de desconstrução da democracia podem ser apoiadas por dados obtidos de forma ilegal e gerar um preço caro demais para a sociedade pagar. Independentemente de estar conectado ou não, é fundamental ter a consciência de que os computadores controlam grande parte da nossa vida – do fornecimento de água aos equipamentos militares – e deixar essas informações à deriva é como deixar de cuidar das nossas próprias vidas.

(*) É diretor da Minsait, empresa de Transformação Digital da Indra.

Mais artigos...

  1. Tecnologia 18/10/2018
  2. Tecnologia 17/10/2018
  3. Tecnologia 16/10/2018
  4. Tecnologia 12 a 15/10/2018
  5. Tecnologia 11/10/2018
  6. Tecnologia 10/10/2018
  7. Tecnologia 09/10/2018
  8. Tecnologia 06 a 08/10/2018
  9. Tecnologia 05/10/2018
  10. Tecnologia 04/10/2018
  11. Tecnologia 02/10/2018
  12. Tecnologia 29/09 a 01/10/2018
  13. Tecnologia 28/09/2018
  14. Tecnologia 27/09/2018
  15. Tecnologia 26/09/2018
  16. Tecnologia 25/09/2018
  17. Tecnologia 22 a 24/09/2018
  18. Tecnologia 21/09/2018
  19. Tecnologia 20/09/2018
  20. Tecnologia 19/09/2018
  21. Tecnologia 18/09/2018
  22. Tecnologia 15 a 17/09/2018
  23. Tecnologia 14/09/2018
  24. Tecnologia 13/09/2018
  25. Tecnologia 12/09/2018
  26. Tecnologia 01/09/2018
  27. Tecnologia 07 a 10/09/2018
  28. Tecnologia 06/09/2018
  29. Tecnologia 05/09/2018
  30. Tecnologia 04/09/2018
  31. Tecnologia 01 a 03/09/2018
  32. Tecnologia 30/08/2018
  33. Tecnologia 29/08/2018
  34. Tecnologia 28/08/2018
  35. Tecnologia 25 a 27/08/2018
  36. Tecnologia 24/08/2018
  37. Tecnologia 23/08/2018
  38. Tecnologia 22/08/2018
  39. Tecnologia 21/08/2018
  40. Tecnologia 18 a 20/08/2018
  41. Tecnologia 16/08/2018
  42. Tecnologia 15/08/2018
  43. Tecnologia 14/08/2018
  44. Tecnologia 11 a 13/08/2018
  45. Tecnologia 10/08/2018
  46. Tecnologia 09/08/2018
  47. Tecnologia 08/08/2018
  48. Tecnologia 07/08/2018
  49. Tecnologia 04 a 06/08/2018
  50. Tecnologia 03/08/2018
  51. Tecnologia 02/08/2018
  52. Tecnologia 01/08/2018
  53. Tecnologia 31/07/2018
  54. Tecnologia 27/07/2018
  55. Tecnologia 26/07/2018
  56. Tecnologia 25/07/2018
  57. Tecnologia 24/07/2018
  58. Tecnologia 21 a 23/07/2018
  59. Tecnologia 20/07/2018
  60. Tecnologia 19/07/2018
  61. Tecnologia 18/07/2018
  62. Tecnologia 17/07/2018
  63. Tecnologia 14 a 16/07/2018
  64. Tecnologia 13/07/2018
  65. Tecnologia 12/07/2018
  66. Tecnologia 11/07/2018
  67. Tecnologia 06/07/2018
  68. Tecnologia 05/07/2018
  69. Tecnologia 04/07/2018
  70. Tecnologia 03/07/2018
  71. Tecnologia 30/06 a 02/07/2018
  72. Tecnologia 29/06/2018
  73. Tecnologia 28/06/2018
  74. Tecnologia 27/06/2018
  75. Tecnologia 26/06/2018
  76. Tecnologia 23 a 25/06/2018
  77. Tecnologia 22/06/2018
  78. Tecnologia 21/06/2018
  79. Tecnologia 20/06/2018
  80. Tecnologia 19/06/2018
  81. Tecnologia 16 a 18/06/2018
  82. Tecnologia 15/06/2018
  83. Tecnologia 14/06/2018
  84. Tecnologia 13/06/2018
  85. Tecnologia 12/06/2018
  86. Tecnologia 08/06/2018
  87. Tecnologia 07/06/2018
  88. Tecnologia 06/06/2018
  89. Tecnologia 05/06/2018
  90. Tecnologia 30/05/2018
  91. Tecnologia 29/05/2018
  92. Tecnologia 26 a 28/05/2018
  93. Tecnologia 25/05/2018
  94. Tecnologia 24/05/2018
  95. Tecnologia 19/05/2018
  96. Tecnologia 17/05/2018
  97. Tecnologia 16/05/2018
  98. Tecnologia 15/05/2018
  99. Tecnologia 11/05/2018
  100. Tecnologia 10/05/2018
Outras Matérias sobre Tecnologia

 

Mais Lidas

Rua Vergueiro, 2949, 12º andar – cjto 121/122
04101-300 – Vila Mariana – São Paulo - SP

Contato: (11) 3043-4171