Você já se perguntou como as empresas descobrem o que seus clientes realmente pensam sobre seus produtos? Pesquisadores da Universidade Federal de Lavras (UFLA) desenvolveram soluções baseadas em inteligência artificial para facilitar essa e outras tarefas de classificação automatizada de textos. Os modelos de inteligência artificial desenvolvidos conseguiram categorizar avaliações presentes em comentários de produtos em lojas virtuais, além de descobrir o gênero dos autores de textos publicados em redes sociais, blogs e fóruns.
Dois modelos de classificação foram desenvolvidos para realizar essas predições. O primeiro é centrado na identificação de aspectos de diferentes atributos presentes em resenhas de livros e avaliações de TVs; e o segundo é destinado à identificação do gênero de autores de textos publicados na internet.
“Considere a seguinte avaliação: ‘A imagem da TV é de excelente qualidade, mas o som não é tão bom assim’. Nela, os aspectos da televisão são analisados pelo consumidor, que atribui um sentimento positivo à imagem e negativo ao som. Esse é um caso de análise por aspectos”, explica o professor do Instituto de Ciências Exatas e Tecnológicas (ICET/UFLA), um dos autores dos estudos, Denilson Alves Pereira.
Os resultados mostraram que a abordagem configurada com o modelo BERTimbau, pré-treinado em domínio geral no idioma português e com ajuste fino nos dados de domínio específico usando a técnica LoRA, obteve maior eficácia tanto na predição de resenhas de livros quanto na de TVs. Além disso, o estudo mostrou que a técnica LoRA reduziu o tamanho final do modelo, possibilitando o uso de menos recursos computacionais.
O BERTimbau é um modelo de inteligência artificial treinado para entender textos em português. Ele utiliza a arquitetura BERT, desenvolvida pela Google. Já a técnica LoRA é uma abordagem de ajuste de modelos pré-treinados, que diminui o tamanho final do modelo, tentando não comprometer o seu desempenho, incorporando novas informações sem a necessidade de ajustar todo o conjunto de parâmetros.
O segundo modelo desenvolvido pelos pesquisadores, o de classificação de gêneros, inovou na metodologia utilizada. “A hipótese levantada por nós é de que explorar particularidades da língua portuguesa e características específicas do domínio do texto contribui para o desempenho preditivo do modelo, aumentando as chances de ele acertar a classificação”, aponta o professor do ICET e autor do estudo, Luiz Henrique de Campos Merschmann.
Visando explorar essas particularidades, foi criada uma abordagem em cascata composta por três etapas. Além do classificador tradicional, os pesquisadores desenvolveram um dicionário que captura características de domínio do texto para aumentar as chances de acerto na previsão, bem como regras práticas voltadas para analisar particularidades da língua portuguesa.
“Nos testes computacionais que realizamos, a abordagem em cascata proposta obteve desempenho preditivo sempre superior àquele alcançado pelos trabalhos apresentados na literatura acadêmica”, garante Merschmann.
Essas aplicações contribuem para o desenvolvimento científico e tecnológico brasileiro, gerando inovação, sobretudo por se tratar de abordagens específicas para a língua portuguesa. “As técnicas desenvolvidas por nós geram impacto tecnológico para aplicações de comércio eletrônico e serviços em geral”, conclui.
As pesquisas foram financiadas pelos seguintes projetos: CNPq Universal 406411/2021-2, Fapemig Universal APQ-02176-21, além do acordo de parceria 006/2020, entre a Stilingue Inteligência Artificial Ltda e a UFLA.
O trabalho sobre classificação via aspectos foi publicado no periódico Neural Computing and Applications e também foi tema de uma dissertação do Programa de Pós-Graduação em Engenharia de Sistemas. A pesquisa sobre classificação de gêneros foi apresentada no Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia).
Os envolvidos nas pesquisas são os professores do ICET, Denilson Alves Pereira, Luiz Henrique de Campos Merschmann e Ahmed Ali Abdalla Esmin; os professores da Escola de Engenharia (EENG), Danton Diego Ferreira e Bruno H. G. Barbosa; os mestres pelo Programa de Pós-Graduação em Ciência da Computação da UFLA, Douglas Nunes de Oliveira e João Pedro Moreira de Morais; o mestre pelo Programa de Pós-graduação em Engenharia de Sistemas e Automação da UFLA José Carlos Ferreira Neto, e o bacharel em Ciência da Computação pela UFLA Thiago Salles Santos.
Esse conteúdo de popularização da ciência foi produzido com o apoio da Fundação de Amparo à Pesquisa de Minas Gerais - Fapemig.