Pesquisadores da UEL elaboram método para identificar fake news

Foram analisadas 21 características de quase 10 mil notícias em português, espanhol e inglês, e o acerto foi de 85%. Só em português, 94%

0
1459

As fake news tiveram seu auge de disseminação no Brasil durante as eleições presidenciais de 2018. Fato semelhante ocorreu também em 2016, nas eleições americanas e, a partir disso, as notícias falsas se espalharam pelo mundo, gerando uma série de desconforto e dúvidas sobre a legitimidade da informação. Mas, e se fosse possível identificar se um texto publicado na internet é uma fake news?

Duas pesquisas da Pós-graduação em Ciências da Computação já têm mostrado, por meio de inteligência computacional, que notícias legítimas podem ser diferenciadas das falsas e das irônicas. Com protótipo criado por eles, a análise de um banco de dados de quase 10 mil notícias em português, espanhol e inglês, apresentou 85% de acerto ao diferenciá-las entre Legítima, Falsa ou Irônica. Quando analisados somente os textos em português o resultado chegou a 94%.

Orientados pelo professor Sylvio Barbon Júnior, do Departamento de Ciência da Computação e também assessor da ATI/UEL, os estudantes Hugo Queiroz Abonizio e Janaina Ignácio de Morais iniciaram as pesquisas sobre fake news no início do ano passado. O foco das pesquisas está no conteúdo textual, baseado nas palavras e também na forma escrita, chamada de Estilometria. Os textos analisados são da editoria de Política.

Uma dificuldade encontrada na pesquisa foi identificar base de dados confiáveis para fazer a verificação dos textos e avaliação do método proposto. O docente conta que chegaram a demorar quase três meses para montar a própria base, com textos em português. Foi com acesso a outras pesquisas científicas que conseguiram a maior parte dos 10 mil textos utilizados, em outras línguas.

A pesquisa não foca, entretanto, na estrutura de disseminação da fake news, mas sim puramente no seu conteúdo. Segundo Sylvio, a disseminação foi favorecida pelas redes sociais, que aceleraram o processo pela facilidade de compartilhamento e difusão das notícias, não sendo possível localizar a fonte original da informação. Ainda existe outro problema: a criação de notícias falsas a partir de outras fake news. “É justamente essa velocidade que atrapalha o rastreamento”, afirma.

COMO IDENTIFICAR A FAKE NEWS?

Os pesquisadores criaram um algoritmo, em códigos, com um sistema de detecção para atuar de forma automatizada. O caminho para a identificação da fake news é o seguinte: o método de inteligência computacional lê a notícia e extrai 21 características. A partir disso, uma etapa seguinte que verifica as características em três tipos: legítimo, falso ou irônico – chegando à análise final.

As 21 características são baseadas em informações textuais, como a utilização de pronomes e conjunções. Quatro dessas características foram definidas por eles: diversidade de classes gramaticais; frequência de personalidades reconhecidas, como o ex-presidente Obama; frequência de palavras fora de um domínio comum, como o da Política; frequência de aspas no texto. As outras 17 foram baseadas em pesquisas internacionais já realizadas.

Quanto aos tipos de textos, os legítimos são os que contêm todas as informações verdadeiras; os falsos têm informações inventadas; já os irônicos misturam informações verdadeiras ou falsas com um tom de humor. “O que já se percebe na verificação é que as notícias legítimas têm mais riqueza de vocabulário, qualidade de escrita”, afirma Sylvio. Nesses textos é possível perceber, por exemplo, a utilização de conjunção entre as frases, como o uso do “que”, algo que não ocorre nas notícias falsas, que apresentam frases isoladas.

RESULTADOS PARCIAIS

Como resultado dessas pesquisas, dois artigos foram elaborados e apresentados no mês de maio, no Simpósio Brasileiro de Sistemas de Informação, em Aracaju, Sergipe. Um deles recebeu menção honrosa na principal categoria do evento, chamada de “Main Track”, que recebeu mais de 300 trabalhos inscritos. Foi aquele produzido pela estudante Janaina Ignácio de Morais, a respeito da primeira parte dos estudos, com análise das notícias em português. Este artigo teve como coautor o professor André Azevedo, do Departamento de Comunicação, que identificou a ironia como uma classe que existe nos textos jornalísticos. Já o segundo é ampliado para as notícias nos três idiomas, feito pelo mestrando Hugo Queiroz Abonizio, em que foi possível identificar uma característica global das fake news em línguas diferentes.

Sylvio explica que sempre teve como foco os estudos da computação aplicados em textos, identificando, por exemplo, a presença do sentimento e das diferentes emoções causadas por diferentes textos. Quanto a esta pesquisa, ele afirma que ainda não é possível ser utilizada por um usuário comum, por não ter a interface amigável, mas vislumbra a possibilidade futura de conseguir indicar no texto da internet se a matéria é falsa, legítima ou irônica.

Fonte: Universidade Estadual de Londrina