Sobre mim

Onde estou:
Google Scholar 🎓 / LinkedIn 🔗 / Lattes 🧪 / GitHub 👨‍💻

Seções:
Resumo Experiência Educação Habilidades Portfólio Atividades Publicações

Elvis de Souza

Rio de Janeiro, RJ / São Carlos, SP - Brasil

Última atualização: 23 de outubro de 2025.

Resumo

Pesquisador em projetos no campo do Processamento de Linguagem Natural (NLP) e Inteligência Artificial no Laboratório de Inteligência Computacional Aplicada da PUC-Rio (ICA/PUC-Rio). Doutorando em Ciências de Computação e Matemática Computacional (ICMC/USP), mestre em Estudos da Linguagem (PPGEL/PUC-Rio) e bacharel em Letras (PUC-Rio). Interessado em Processamento de Linguagem Natural, Linguística Computacional, Humanidades Digitais e estudos linguísticos descritivos baseados em corpus.

Experiência

  • 2019-hoje: Laboratório de Inteligência Computacional Aplicada (ICA/PUC-Rio)
    • Pesquisa e desenvolvimento no campo do Processamento de Linguagem Natural (NLP) e Inteligência Artificial (2023-hoje)
    • Bolsista de mestrado (2021-2023) e de iniciação científica (2019-2021)
    • Pesquisador no projeto Petrolês
  • 2023-2024: Centro de Inteligência Artificial (C4AI/USP)
    • Assistente de pesquisa no projeto POeTiSA (POrtuguese processing - Towards Syntactic Analysis and parsing) auxiliando na anotação sintática e semântica de corpora e no desenvolvimento e customização de ferramentas de anotação humana
  • 2023: Faculdade Descomplica
    • Professor autor da disciplina de Processamento de Linguagem Natural do curso de graduação Tecnologia em Ciência de Dados
  • 2020: University Center for Computer Corpus Research on Language (UCREL/Lancaster University)
    • Assistente de pesquisa, responsável pelo desenvolvimento de sistema de anotação semântica de textos em árabe utilizando Python. O programa é uma versão em árabe do USAS (UCREL Semantic Analysis System). O projeto se desenvolveu numa parceria entre Lancaster University, Zayed University e New York Abu Dhabi University.
  • 2019-2020: Departamento de Letras da PUC-Rio
    • Bolsista de iniciação científica pelo CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico)
    • Participação, durante um ano e meio, no projeto “Construção de datasets para o PLN de Língua Portuguesa”, sob coordenação da Prof.ª Dr.ª Cláudia Freitas do Departamento de Letras da PUC-Rio. Financiado pelo CNPq, o projeto contribuiu para o desenvolvimento das versões 2.4, 2.5 e 2.6 do treebank em língua portuguesa Bosque-UD, que é parte do framework Universal Dependencies. Deste projeto resultou uma documentação detalhada das escolhas gramaticais inerentes à anotação em língua portuguesa neste formato. Também foram desenvolvidas ferramentas para análise e anotação de corpora que foram usadas por outros pesquisadores e várias publicações foram realizadas no âmbito do Processamento de Linguagem Natural.
  • 2018-2019: Departamento de Informática da PUC-Rio
    • Estagiário no Núcleo de Inovação Tecnológica
    • Desenvolvimento de sistema de reconhecimento de fala e identificação/extração de informações de texto no âmbito da Linguística Computacional/PLN em projeto financiado pelo Banco BTG Pactual.
  • 2018: Núcleo de Orientação e Apoio Psicopedagógico (NOAP/PUC-Rio)
    • Voluntário da equipe de Leitura e Escrita
    • Apoio a alunos de diferentes cursos da Universidade com necessidade de aprimoramento das suas habilidades de leitura e escrita acadêmicas.
  • 2017: Secretaria Municipal de Educação - Rio de Janeiro
    • Bolsista de iniciação à docência pela CAPES/MEC (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior/Ministério da Educação)
    • Atuação como professor assistente de Língua Portuguesa para os 6º e 7º anos do Ensino Fundamental II em escola da rede municipal da cidade do Rio de Janeiro.

Educação

  • 2024-atual: Doutorado em Ciências de Computação e Matemática Computacional pela Universidade de São Paulo (ICMC/USP)
    • Pesquisa na linha de Processamento de Linguagem Natural
    • Título provisório: Enhanced Dependencies para português: uma investigação sobre métodos computacionais para a anotação das dependências sintáticas enhanced do projeto Universal Dependencies
  • 2023-2025: Pós-graduação lato sensu em Business Intelligence e Ciência de Dados (BI MASTER/PUC-Rio)
    • Carga horária: 360 horas
  • 2021-2023: Mestrado em Estudos da Linguagem pela Pontifícia Universidade Católica do Rio de Janeiro (PPGEL/PUC-Rio)
    • Título da dissertação: Construção e avaliação de um treebank padrão ouro
    • Aprovação em 1º lugar na seleção para o mestrado
    • Bolsista do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico)
    • Bolsista FAPERJ (Fundação de Amparo à Pesquisa do Estado do Rio de Janeiro) – Mestrado Nota 10
    • CR: 9,9
  • 2017-2020: Bacharelado em Letras Português/Inglês e respectivas literaturas pela Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)
    • Bolsista integral pelo ProUni (Programa Universidade para Todos)
    • CR: 9,5
  • 2021: Curso de Extensão Universitária “Python para Processamento de Linguagem Natural”, concluído pelo Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC/USP)
    • Carga horária: 20 horas
  • 2021: Minicurso “Introdução à Linguística de Corpus”, ministrado pela Prof. Dra. Andressa Rodrigues Gomide, da Universidade de Coimbra, ao Programa Interdisciplinar de Pós-Graduação em Linguística Aplicada da Faculdade de Letras da UFRJ
    • Carga horária: 5 horas
  • 2020: Curso “Formação em processamento de corpos, PLN, anotação, e estatística”, parte do projeto BILLIG, ministrado pela profa. Diana Santos da Universidade de Oslo
    • Carga horária: 20 horas
  • 2019: Disciplina “Introdução à Interação Humano-Computador”, do Departamento de Informática da PUC-Rio
    • Créditos: 4
  • 2019: Curso “Inteligência Artificial II (IA II)”, do Laboratório de Inteligência Computacional Aplicada, concluído pela CCE/PUC-Rio
    • Carga horária: 45 horas
  • 2019: Curso “Inteligência Artificial I (IA I)”, do Laboratório de Inteligência Computacional Aplicada, concluído pela CCE/PUC-Rio
    • Carga horária: 45 horas
  • 2014-2016: Colégio de São Bento do Rio de Janeiro

Habilidades

  • Conhecimento de diversas linguagens de programação
  • Desenvolvimento back-end (Python, Flask/Django) e front-end (Web e PWA com JavaScript, Pascal/Lazarus)
  • Conhecimento de infraestrutura web (Apache), aprendizado de máquina, Linux e Git

Portfólio

Atividades

2025

  • Parecer para a revista Linguamática (v. 17 n. 2)

  • Participação como membro convidado na banca de Estágio em Ciência de dados e Inteligência Artificial (ICMC/USP) do aluno Vinicius Gustierrez Neves

  • Aprovação no exame de qualificação de doutorado (ICMC/USP). Título do trabalho: Investigação de métodos para a anotação automática de Dependências Universais Aprimoradas para o português

  • Participação no Comitê Científico da 35th Brazilian Conference on Intelligent Systems (BRACIS)

  • Participação no Comitê Científico do 16th Symposium in Information and Human Language Technology (STIL)

  • Participação no Comitê Científico da X Portuguese Description Conference (JDP 2025)

  • Participação no Comitê Científico do X Scientific Initiation Workshop in Information Technology and Human Language (TILic 2025)

2024

2023

  • Depósito de patente: MÉTODO PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES A PARTIR DE UM CORPUS PARA POVOAR UM GRAFO DE CONHECIMENTO. Número do registro: BR1020230180280. Instituição de registro: INPI - Instituto Nacional da Propriedade Industrial. Depósito: 05/09/2023. Data de Publicação Nacional: 18/03/2025. Categoria: Processo.

  • Parecer para a revista Letras, da UFSM, Edição Especial - 1/2023: O falante, o linguista e uma antropologia na linguagem: uma homenagem ao Professor Valdir do Nascimento Flores. Disponível em: https://periodicos.ufsm.br/letras/issue/view/2319.

  • Palestra “Construção de datasets linguísticos: por onde começar?”, promovida pelo Laboratório de Inteligência Computacional Aplicada da Pontifícia Universidade Católica do Rio de Janeiro (ICA/PUC-Rio).

  • Palestra “Recursos linguísticos e computacionais para o Processamento de Linguagem Natural”, promovida pelo Laboratório de Inteligência Computacional Aplicada da Pontifícia Universidade Católica do Rio de Janeiro (ICA/PUC-Rio).

  • Palestra “Construção e avaliação de um treebank padrão ouro na prática: Um panorama sobre as ferramentas utilizadas e os resultados obtidos no desenvolvimento do PetroGold”, para o Programa de Pós-Graduação em Estudos da Linguagem da Pontifícia Universidade Católica do Rio de Janeiro (PPGEL/PUC-Rio).

Publicações

2025

  • CALDAS, Josue D. V.; DE SOUZA, Elvis A.. 2025. A Comprehensive Evaluation of Large Language Models for Retrieval-Augmented Generation under Noisy Conditions. In Proceedings of the 1st Workshop on Confabulation, Hallucinations and Overgeneration in Multilingual and Practical Settings (CHOMPS 2025), pages 60–69, Mumbai, India. Association for Computational Linguistics. Disponível em: https://aclanthology.org/2025.chomps-main.6/.

  • DURAN, Magali S.; DE SOUZA, Elvis A.; NUNES, Maria G. V. N.; PAGANO, Adriana S.; PARDO, Thiago A. S.. 2025. Extending the Enhanced Universal Dependencies – addressing subjects in pro-drop languages. In Proceedings of the Eighth Workshop on Universal Dependencies (UDW, SyntaxFest 2025), pages 143–152, Ljubljana, Slovenia. Association for Computational Linguistics. Disponível em: https://aclanthology.org/2025.udw-1.16/.

  • SCALERCIO, Arthur M. R. D. A.; DE SOUZA, Elvis A.; FINATTO, Maria J. B.; PAES, Aline. Evaluating LLMs for Portuguese Sentence Simplification with Linguistic Insights. In: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025. p. 24452-24477. Disponível em: https://aclanthology.org/2025.acl-long.1193/.

2024

  • DE SOUZA, Elvis A.; DURAN, Magali Sanches; PAGANO, Adriana S.. An NLP approach to impersonal –se in Brazilian Portuguese. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 346-355. DOI: https://doi.org/10.5753/stil.2024.245307.

  • NAVARRO, Laura P.; DE SOUZA, Elvis A.; PACHECO, Marco A. C.. Text extraction from Knowledge Graphs in the Oil and Gas Industry. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 524-529. DOI: https://doi.org/10.5753/stil.2024.31172.

  • DE SOUZA, Elvis A.; SILVA, Patricia F. da; GOMES, Diogo; BATISTA, Vitor; BATISTA, Evelyn; PACHECO, Marco. TableRAG: A Novel Approach for Augmenting LLMs with Information from Retrieved Tables. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 182-191. DOI: https://doi.org/10.5753/stil.2024.245371.

  • DE SOUZA, Elvis A.; DURAN, Magali S.; NUNES, Maria das Graças V.; SAMPAIO, Gustavo; BELASCO, Giovanna; PARDO, Thiago A. S.. Automatic Annotation of Enhanced Universal Dependencies for Brazilian Portuguese. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024. p. 217-226. DOI: https://doi.org/10.5753/stil.2024.245342. (Best Paper Award)

  • CORDEIRO, Fábio Corrêa; DA SILVA, Patrícia Ferreira; TESSAROLLO, Alexandre; FREITAS, Cláudia; DE SOUZA, Elvis; GOMES, Diogo da Silva Magalhães; SOUZA, Renato Rocha; COELHO, Flávio Codeço. Petro NLP: Resources for natural language processing and information extraction for the oil and gas industry. Computers & Geosciences, p. 105714, 2024. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0098300424001973.

2023

  • DE SOUZA, Elvis; FREITAS, Cláudia. Avaliação da anotação automática de dependências sintáticas. Revista da ABRALIN, [S. l.], v. 22, n. 2, p. 308–331, 2023. DOI: 10.25189/rabralin.v22i2.2114. Disponível em: https://revista.abralin.org/index.php/abralin/article/view/2114. Acesso em: 4 set. 2024.

  • FREITAS, Cláudia; Souza, Elvis; Castro, Maria Clara; Cavalcanti, Tatiana; Ferreira da Silva, Patrícia; & Corrêa Cordeiro, Fábio. Recursos linguísticos para o PLN específico de domínio: o Petrolês. In: Linguamática, 15(2), 2023. p. 51-68. https://doi.org/10.21814/lm.15.2.412.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Annotation of fixed Multiword Expressions (MWEs) in a Portuguese Universal Dependencies (UD) treebank: Gathering candidates from three different sources. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 442-450. DOI: https://doi.org/10.5753/stil.2023.25484.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Um pronome com muitas funções: Descrição e resultados da anotação do pronome -se em um treebank segundo o esquema Universal Dependencies (UD) para Português. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14., 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 278-287. DOI: https://doi.org/10.5753/stil.2023.233986.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Explorando variações no tagset e na anotação Universal Dependencies (UD) para Português: Possibilidades e resultados com base no treebank PetroGold. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14., 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 125-134. DOI: https://doi.org/10.5753/stil.2023.233980.

  • DE SOUZA, Elvis. Construção e avaliação de um treebank padrão ouro. Mestrado, PUC-Rio, 2023. https://doi.org/10.17771/PUCRio.acad.62693

  • FREITAS, Cláudia; DE SOUZA, Elvis. A study on methods for revising dependency treebanks: in search of gold. In: Lang Resources & Evaluation. Springer, 2023. DOI: https://doi.org/10.1007/s10579-023-09653-4.

2022

  • KHALLAF, Nouran; DE SOUZA, Elvis; EL-HAJ, Mahmoud; RAYSON, Paul. Semantic domains across topics, genders and languages. In: Bilingual Writers and Corpus Analysis. Routledge, 2022. p. 96-120.

  • EL-HAJ, Mahmoud; RAYSON, Paul; DE SOUZA, Elvis; KHALLAF, Nouran; HABASH, Nizar. AraSAS: The Open Source Arabic Semantic Tagger. In: Proceedings of the 5th Workshop on Open-Source Arabic Corpora and Processing Tools with Shared Tasks on Qur’an QA and Fine-Grained Hate Speech Detection, p. 23-31, Marseille, France. European Language Resources Association (ELRA), 2022. Disponível em: http://www.lrec-conf.org/proceedings/lrec2022/workshops/OSACT/pdf/2022.osact-1.3.pdf. Acesso em: 24 de jun. 2022.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Still on arguments and adjuncts: the status of the indirect object and the adverbial adjunct relations in Universal Dependencies for Portuguese. In: Proceedings of the Universal Dependencies Brazilian Festival, p. 1–10, Fortaleza, Brazil. Association for Computational Linguistics, 2022. Disponível em: https://aclanthology.org/2022.udfestbr-1.5/. Acesso em: 11 de jun. 2022.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Polishing the gold – how much revision do we need in treebanks?. In: Proceedings of the Universal Dependencies Brazilian Festival, p. 1–11, Fortaleza, Brazil. Association for Computational Linguistics, 2022. Disponível em: https://aclanthology.org/2022.udfestbr-1.2/. Acesso em: 11 de jun. 2022.

2021

  • DE SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; CASTRO, Maria Clara; FREITAS, Cláudia. PetroGold – Corpus padrão ouro para o domínio do petróleo. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13., 2021, Evento Online. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 29-38. DOI: https://doi.org/10.5753/stil.2021.17781.

  • DE SOUZA, Elvis; FREITAS, Cláudia. ET: A Workstation for Querying, Editing and Evaluating Annotated Corpora. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP 2021), p. 35-41, Online and in Punta Cana, Dominican Republic, November, 2021. Association for Computational Linguistics. Disponível em: https://aclanthology.org/2021.emnlp-demo.5/. Acesso em: 9 nov. 2021.

  • CAVALCANTI, Tatiana; SILVEIRA, Aline; DE SOUZA, Elvis; FREITAS, Cláudia. Os limites da palavra e da sentença no processamento automático de textos. Revista Brasileira de Iniciação Científica, [S. l.], v. 8, p. e021033, 2021. Disponível em: https://periodicoscientificos.itp.ifsp.edu.br/index.php/rbic/article/view/348. Acesso em: 15 out. 2021.

  • FREITAS, Cláudia; DE SOUZA, Elvis. Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach. REVISTA DE ESTUDOS DA LINGUAGEM, [S.l.], v. 29, n. 2, p. 1033-1058, mar. 2021. ISSN 2237-2083. Available at: http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/17439. Date accessed: 20 mar. 2021. DOI: http://dx.doi.org/10.17851/2237-2083.29.2.1033-1058.

  • DE SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; CASTRO, Maria Clara; FREITAS, Cláudia. Documentação da anotação morfossintática do PetroGold. 2021. Disponível em: https://www.researchgate.net/publication/365597977_Documentacao_da_anotacao_morfossintatica_do_PetroGold. Acesso em: 21 de nov. 2022.

2020

2019

2018