Sobre mim
Onde estou:
Google Scholar 🎓 / LinkedIn 🔗 / Lattes 🧪 / GitHub 👨💻
Seções:
Resumo Experiência Educação Habilidades Portfólio Atividades Publicações
Elvis de Souza
Rio de Janeiro, RJ / São Carlos, SP - Brasil
- ✉️ - elvis.desouza99@gmail.com
- 🏠 - souelvis.dev
Última atualização: 09 de dez. 2024.
Resumo
Pesquisador em projetos no campo do Processamento de Linguagem Natural (NLP) e Inteligência Artificial no Laboratório de Inteligência Computacional Aplicada da PUC-Rio (ICA/PUC-Rio). Doutorando em Ciências de Computação e Matemática Computacional (ICMC/USP), mestre em Estudos da Linguagem (PPGEL/PUC-Rio) e bacharel em Letras (PUC-Rio). Interessado em Processamento de Linguagem Natural, Linguística Computacional, Humanidades Digitais e estudos linguísticos descritivos baseados em corpus.
Experiência
- 2019-hoje: Laboratório de Inteligência Computacional Aplicada (ICA/PUC-Rio)
- Pesquisa e desenvolvimento no campo do Processamento de Linguagem Natural (NLP) e Inteligência Artificial (2023-hoje)
- Bolsista de mestrado (2021-2023) e de iniciação científica (2019-2021)
- Pesquisador no projeto Petrolês
- 2023-2024: Centro de Inteligência Artificial (C4AI/USP)
- Assistente de pesquisa no projeto POeTiSA (POrtuguese processing - Towards Syntactic Analysis and parsing) auxiliando na anotação sintática e semântica de corpora e no desenvolvimento e customização de ferramentas de anotação humana
- 2023: Faculdade Descomplica
- Professor autor da disciplina de Processamento de Linguagem Natural do curso de graduação Tecnologia em Ciência de Dados
- 2020: University Center for Computer Corpus Research on Language (UCREL/Lancaster University)
- Assistente de pesquisa, responsável pelo desenvolvimento de sistema de anotação semântica de textos em árabe utilizando Python. O programa é uma versão em árabe do USAS (UCREL Semantic Analysis System). O projeto se desenvolveu numa parceria entre Lancaster University, Zayed University e New York Abu Dhabi University.
- 2019-2020: Departamento de Letras da PUC-Rio
- Bolsista de iniciação científica pelo CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico)
- Participação, durante um ano e meio, no projeto “Construção de datasets para o PLN de Língua Portuguesa”, sob coordenação da Prof.ª Dr.ª Cláudia Freitas do Departamento de Letras da PUC-Rio. Financiado pelo CNPq, o projeto contribuiu para o desenvolvimento das versões 2.4, 2.5 e 2.6 do treebank em língua portuguesa Bosque-UD, que é parte do framework Universal Dependencies. Deste projeto resultou uma documentação detalhada das escolhas gramaticais inerentes à anotação em língua portuguesa neste formato. Também foram desenvolvidas ferramentas para análise e anotação de corpora que foram usadas por outros pesquisadores e várias publicações foram realizadas no âmbito do Processamento de Linguagem Natural.
- 2018-2019: Departamento de Informática da PUC-Rio
- Estagiário no Núcleo de Inovação Tecnológica
- Desenvolvimento de sistema de reconhecimento de fala e identificação/extração de informações de texto no âmbito da Linguística Computacional/PLN em projeto financiado pelo Banco BTG Pactual.
- 2018: Núcleo de Orientação e Apoio Psicopedagógico (NOAP/PUC-Rio)
- Voluntário da equipe de Leitura e Escrita
- Apoio a alunos de diferentes cursos da Universidade com necessidade de aprimoramento das suas habilidades de leitura e escrita acadêmicas.
- 2017: Secretaria Municipal de Educação - Rio de Janeiro
- Bolsista de iniciação à docência pela CAPES/MEC (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior/Ministério da Educação)
- Atuação como professor assistente de Língua Portuguesa para os 6º e 7º anos do Ensino Fundamental II em escola da rede municipal da cidade do Rio de Janeiro.
Educação
- 2024-atual: Doutorado em Ciências de Computação e Matemática Computacional pela Universidade de São Paulo (ICMC/USP)
- Pesquisa na linha de Processamento de Linguagem Natural
- Título provisório: Enhanced Dependencies para português: uma investigação sobre métodos computacionais para a anotação das dependências sintáticas enhanced do projeto Universal Dependencies
- 2023-2025: Pós-graduação lato sensu em Business Intelligence e Ciência de Dados (BI MASTER/PUC-Rio)
- 2021-2023: Mestrado em Estudos da Linguagem pela Pontifícia Universidade Católica do Rio de Janeiro (PPGEL/PUC-Rio)
- Título da dissertação: Construção e avaliação de um treebank padrão ouro
- Aprovação em 1º lugar na seleção para o mestrado
- Bolsista do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico)
- Bolsista FAPERJ (Fundação de Amparo à Pesquisa do Estado do Rio de Janeiro) – Mestrado Nota 10
- CR: 9,9
- 2017-2020: Bacharelado em Letras Português/Inglês e respectivas literaturas pela Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)
- Bolsista integral pelo ProUni (Programa Universidade para Todos)
- CR: 9,5
- 2021: Curso de Extensão Universitária “Python para Processamento de Linguagem Natural”, concluído pelo Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC/USP)
- Carga horária: 20 horas
- 2021: Minicurso “Introdução à Linguística de Corpus”, ministrado pela Prof. Dra. Andressa Rodrigues Gomide, da Universidade de Coimbra, ao Programa Interdisciplinar de Pós-Graduação em Linguística Aplicada da Faculdade de Letras da UFRJ
- Carga horária: 5 horas
- 2020: Curso “Formação em processamento de corpos, PLN, anotação, e estatística”, parte do projeto BILLIG, ministrado pela profa. Diana Santos da Universidade de Oslo
- Carga horária: 20 horas
- 2019: Disciplina “Introdução à Interação Humano-Computador”, do Departamento de Informática da PUC-Rio
- Créditos: 4
- 2019: Curso “Inteligência Artificial II (IA II)”, do Laboratório de Inteligência Computacional Aplicada, concluído pela CCE/PUC-Rio
- Carga horária: 45 horas
- 2019: Curso “Inteligência Artificial I (IA I)”, do Laboratório de Inteligência Computacional Aplicada, concluído pela CCE/PUC-Rio
- Carga horária: 45 horas
- 2014-2016: Colégio de São Bento do Rio de Janeiro
- Ensino Médio com bolsa integral pelo ISMART - Instituto Social para Motivar, Apoiar e Reconhecer Talentos
Habilidades
- Conhecimento de diversas linguagens de programação
- Desenvolvimento back-end (Python, Flask/Django) e front-end (Web e PWA com JavaScript, Pascal/Lazarus)
- Conhecimento de infraestrutura web (Apache), aprendizado de máquina, Linux e Git
Portfólio
- AraSAS
- Anotador semântico de textos em árabe (versão árabe do USAS - UCREL Semantic Analysis System)
- Site: arasas.souelvis.dev
- Código-fonte: github.com/UCREL/AraSAS. O back-end foi desenvolvido em Python e o aplicativo utiliza o framework Flask.
- UD Validate
- Interface web para validação de frases anotadas no formato Universal Dependencies
- Site: ud-validate.souelvis.dev
- Código-fonte: github.com/alvelvis/ud-validate
- Interrogatório
- Ambiente on-line de busca e revisão de corpora anotados no formato Universal Dependencies
- Site: interrogatorio.souelvis.dev
- Código-fonte: github.com/alvelvis/Interrogat-rio
- Petrolês
- Recursos do projeto Petrolês, um repositório de artefatos de Processamento de Linguagem Natural especializados no domínio de petróleo em Português
- Site: petroles.puc-rio.ai
- Tronco
- Aplicativo de bloco de notas e tarefas multiplataforma
- Site: tronco.souelvis.dev
- Código-fonte: github.com/alvelvis/Tronco
Atividades
2024
-
Revisão de trabalhos submetidos para o IEEE LA-CCI 2024. Disponível em: https://ieee.org.co/la-cci2024/.
-
Best Paper Award no SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL). Título: Automatic Annotation of Enhanced Universal Dependencies for Brazilian Portuguese.
2023
- Parecer para a revista Letras, da UFSM, Edição Especial - 1/2023: O falante, o linguista e uma antropologia na linguagem: uma homenagem ao Professor Valdir do Nascimento Flores. Disponível em: https://periodicos.ufsm.br/letras/issue/view/2319.
Publicações
2024
-
DE SOUZA, Elvis A.; DURAN, Magali Sanches; PAGANO, Adriana S.. An NLP approach to impersonal –se in Brazilian Portuguese. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 346-355. DOI: https://doi.org/10.5753/stil.2024.245307.
-
NAVARRO, Laura P.; DE SOUZA, Elvis A.; PACHECO, Marco A. C.. Text extraction from Knowledge Graphs in the Oil and Gas Industry. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 524-529. DOI: https://doi.org/10.5753/stil.2024.31172.
-
DE SOUZA, Elvis A.; SILVA, Patricia F. da; GOMES, Diogo; BATISTA, Vitor; BATISTA, Evelyn; PACHECO, Marco. TableRAG: A Novel Approach for Augmenting LLMs with Information from Retrieved Tables. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 182-191. DOI: https://doi.org/10.5753/stil.2024.245371.
-
DE SOUZA, Elvis A.; DURAN, Magali S.; NUNES, Maria das Graças V.; SAMPAIO, Gustavo; BELASCO, Giovanna; PARDO, Thiago A. S.. Automatic Annotation of Enhanced Universal Dependencies for Brazilian Portuguese. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024. p. 217-226. DOI: https://doi.org/10.5753/stil.2024.245342. (Best Paper Award)
-
CORDEIRO, Fábio Corrêa; DA SILVA, Patrícia Ferreira; TESSAROLLO, Alexandre; FREITAS, Cláudia; DE SOUZA, Elvis; GOMES, Diogo da Silva Magalhães; SOUZA, Renato Rocha; COELHO, Flávio Codeço. Petro NLP: Resources for natural language processing and information extraction for the oil and gas industry. Computers & Geosciences, p. 105714, 2024. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0098300424001973.
2023
-
DE SOUZA, Elvis; FREITAS, Cláudia. Avaliação da anotação automática de dependências sintáticas. Revista da ABRALIN, [S. l.], v. 22, n. 2, p. 308–331, 2023. DOI: 10.25189/rabralin.v22i2.2114. Disponível em: https://revista.abralin.org/index.php/abralin/article/view/2114. Acesso em: 4 set. 2024.
-
FREITAS, Cláudia; Souza, Elvis; Castro, Maria Clara; Cavalcanti, Tatiana; Ferreira da Silva, Patrícia; & Corrêa Cordeiro, Fábio. Recursos linguísticos para o PLN específico de domínio: o Petrolês. In: Linguamática, 15(2), 2023. p. 51-68. https://doi.org/10.21814/lm.15.2.412.
-
DE SOUZA, Elvis; FREITAS, Cláudia. Annotation of fixed Multiword Expressions (MWEs) in a Portuguese Universal Dependencies (UD) treebank: Gathering candidates from three different sources. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 442-450. DOI: https://doi.org/10.5753/stil.2023.25484.
-
DE SOUZA, Elvis; FREITAS, Cláudia. Um pronome com muitas funções: Descrição e resultados da anotação do pronome -se em um treebank segundo o esquema Universal Dependencies (UD) para Português. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 278-287. DOI: https://doi.org/10.5753/stil.2023.233986.
-
DE SOUZA, Elvis; FREITAS, Cláudia. Explorando variações no tagset e na anotação Universal Dependencies (UD) para Português: Possibilidades e resultados com base no treebank PetroGold. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 125-134. DOI: https://doi.org/10.5753/stil.2023.233980.
-
DE SOUZA, Elvis. Construção e avaliação de um treebank padrão ouro. Mestrado, PUC-Rio, 2023. https://doi.org/10.17771/PUCRio.acad.62693
-
FREITAS, Cláudia; DE SOUZA, Elvis. A study on methods for revising dependency treebanks: in search of gold. In: Lang Resources & Evaluation. Springer, 2023. DOI: https://doi.org/10.1007/s10579-023-09653-4.
2022
-
KHALLAF, Nouran; DE SOUZA, Elvis; EL-HAJ, Mahmoud; RAYSON, Paul. Semantic domains across topics, genders and languages. In: Bilingual Writers and Corpus Analysis. Routledge, 2022. p. 96-120.
-
EL-HAJ, Mahmoud; RAYSON, Paul; DE SOUZA, Elvis; KHALLAF, Nouran; HABASH, Nizar. AraSAS: The Open Source Arabic Semantic Tagger. In: Proceedings of the 5th Workshop on Open-Source Arabic Corpora and Processing Tools with Shared Tasks on Qur’an QA and Fine-Grained Hate Speech Detection, p. 23-31, Marseille, France. European Language Resources Association (ELRA), 2022. Disponível em: http://www.lrec-conf.org/proceedings/lrec2022/workshops/OSACT/pdf/2022.osact-1.3.pdf. Acesso em: 24 de jun. 2022.
-
DE SOUZA, Elvis; FREITAS, Cláudia. Still on arguments and adjuncts: the status of the indirect object and the adverbial adjunct relations in Universal Dependencies for Portuguese. In: Proceedings of the Universal Dependencies Brazilian Festival, p. 1–10, Fortaleza, Brazil. Association for Computational Linguistics, 2022. Disponível em: https://aclanthology.org/2022.udfestbr-1.5/. Acesso em: 11 de jun. 2022.
-
DE SOUZA, Elvis; FREITAS, Cláudia. Polishing the gold – how much revision do we need in treebanks?. In: Proceedings of the Universal Dependencies Brazilian Festival, p. 1–11, Fortaleza, Brazil. Association for Computational Linguistics, 2022. Disponível em: https://aclanthology.org/2022.udfestbr-1.2/. Acesso em: 11 de jun. 2022.
2021
-
DE SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; CASTRO, Maria Clara; FREITAS, Cláudia. PetroGold – Corpus padrão ouro para o domínio do petróleo. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13., 2021, Evento Online. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 29-38. DOI: https://doi.org/10.5753/stil.2021.17781.
-
DE SOUZA, Elvis; FREITAS, Cláudia. ET: A Workstation for Querying, Editing and Evaluating Annotated Corpora. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP 2021), p. 35-41, Online and in Punta Cana, Dominican Republic, November, 2021. Association for Computational Linguistics. Disponível em: https://aclanthology.org/2021.emnlp-demo.5/. Acesso em: 9 nov. 2021.
-
CAVALCANTI, Tatiana; SILVEIRA, Aline; DE SOUZA, Elvis; FREITAS, Cláudia. Os limites da palavra e da sentença no processamento automático de textos. Revista Brasileira de Iniciação Científica, [S. l.], v. 8, p. e021033, 2021. Disponível em: https://periodicoscientificos.itp.ifsp.edu.br/index.php/rbic/article/view/348. Acesso em: 15 out. 2021.
-
FREITAS, Cláudia; DE SOUZA, Elvis. Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach. REVISTA DE ESTUDOS DA LINGUAGEM, [S.l.], v. 29, n. 2, p. 1033-1058, mar. 2021. ISSN 2237-2083. Available at: http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/17439. Date accessed: 20 mar. 2021. DOI: http://dx.doi.org/10.17851/2237-2083.29.2.1033-1058.
-
DE SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; CASTRO, Maria Clara; FREITAS, Cláudia. Documentação da anotação morfossintática do PetroGold. 2021. Disponível em: https://www.researchgate.net/publication/365597977_Documentacao_da_anotacao_morfossintatica_do_PetroGold. Acesso em: 21 de nov. 2022.
2020
-
DE SOUZA, Elvis; FREITAS, Cláudia. “Bastidores linguísticos e computacionais da construção de um dataset linguístico” (Relatório de pesquisa). Departamento de Letras, PUC-Rio. 2020. Disponível em: https://docs.google.com/document/d/12KGrLVb47RyNFGGg6LOvgboNpPfOZBJRx7Z85PQW7JA.
-
DE SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; EVELYN, Wograine; FREITAS, Cláudia. Diretivas e documentação de anotação UD em português (e para língua portuguesa). 2020. Disponível em: https://bit.ly/documenta-o-ud-pt.
-
SILVEIRA, Aline; DE SOUZA, Elvis; CAVALCANTI, Tatiana; EVELYN, Wograine; FREITAS, Cláudia. Documentação relativa à tokenização e à sentenciação do corpus Petrolês/PetroTok. 2020. Disponível em: https://www.researchgate.net/publication/373627981_Documentacao_relativa_a_tokenizacao_e_a_sentenciacao_do_corpus_PetrolesPetroTok.
2019
-
FREITAS, Cláudia; DE SOUZA, Elvis; ROCHA, Luisa. “Quantificando (e qualificando) o sujeito oculto em português”. In: VI Jornada de Descrição do Português, STIL 2019. 2019. Disponível em: http://comissoes.sbc.org.br/ce-pln/stil2019/proceedings-stil-2019-Final-Publicacao.pdf.
-
DE SOUZA, Elvis; FREITAS, Cláudia. “(Re)começando a discutir as locuções verbais”. In: VI Jornada de Descrição do Português, STIL 2019. 2019. Disponível em: http://comissoes.sbc.org.br/ce-pln/stil2019/proceedings-stil-2019-Final-Publicacao.pdf.
-
SILVEIRA, Aline; DE SOUZA, Elvis; CAVALCANTI, Tatiana; FREITAS, Cláudia. Do PDF ao TXT: Desafios na extração de informação em textos técnico-científicos. In: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (TILic 2019). TILic 2019, Salvador, BA, Brazil, Outubro, 15-18, 2019. Disponível em: http://comissoes.sbc.org.br/ce-pln/stil2019/proceedings-stil-2019-Final-Publicacao.pdf.
-
DE SOUZA, Elvis; FREITAS, Cláudia. “ET: uma Estação de Trabalho para revisão, edição e avaliação de corpora anotados morfossintaticamente”. In: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (TILic 2019). TILic 2019, Salvador, BA, Brazil, Outubro, 15-18, 2019. Disponível em: http://comissoes.sbc.org.br/ce-pln/stil2019/proceedings-stil-2019-Final-Publicacao.pdf.
-
DE SOUZA, Elvis; FREITAS, Cláudia. “Relatório anual (2018-2019) do projeto ‘Construção de datasets para o PLN de língua portuguesa’” (Relatório de pesquisa). Departamento de Letras, PUC-Rio. 2019. Disponível em: https://docs.google.com/document/d/1YuSs4h2H9Uh3_wwDxupaZXffH7ugxwW9hTUcWC-Ay_w/.
2018
-
DE SOUZA, Elvis; ROCHA, Luisa. “Relatório sobre o impacto da correção de part-of-speech no corpus Bosque”. Departamento de Letras, PUC-Rio. 2018. Disponível em: https://github.com/alvelvis/Experimento-Revisao-de-POS.
-
DE SOUZA, Elvis. “Sobre a utilização do UDPipe - Parser do Universal Dependencies”. Departamento de Letras, PUC-Rio. 2018. Disponível em: https://docs.google.com/document/d/1Ula5j4qm0GA58uL_eataCLyePJlhw9m-iqXNLHzlEQw/edit.