Sobre mim

Onde estou:
LinkedIn 🔗 / Lattes 🧪 / GitHub 👨‍💻

Seções:
Resumo Experiência Educação Habilidades Portfólio Publicações

Elvis de Souza

Rio de Janeiro, RJ / Brasil

Última atualização: 05 de jan. 2023.

Resumo

Pesquisador em projetos no campo do Processamento de Linguagem Natural (NLP) e Inteligência Artificial no Laboratório de Inteligência Computacional Aplicada da PUC-Rio (ICA/PUC-Rio). Doutorando em Ciências de Computação e Matemática Computacional (ICMC/USP), mestre em Estudos da Linguagem (PPGEL/PUC-Rio) e bacharel em Letras (PUC-Rio). Interessado em Processamento de Linguagem Natural, Linguística Computacional, Humanidades Digitais e estudos linguísticos descritivos baseados em corpus.

Experiência

  • 2019-hoje: Laboratório de Inteligência Computacional Aplicada (ICA/PUC-Rio)
    • Pesquisa e desenvolvimento no campo do Processamento de Linguagem Natural (NLP) e Inteligência Artificial (2023-hoje)
    • Bolsista de mestrado (2021-2023) e de iniciação científica (2019-2021)
    • Pesquisador do projeto Petrolês
  • 2023-hoje: Centro de Inteligência Artificial (C4AI/USP)
    • Assistente de pesquisa no projeto POeTiSA (POrtuguese processing - Towards Syntactic Analysis and parsing) auxiliando na anotação sintática e semântica de corpora e no desenvolvimento e customização de ferramentas de anotação humana
  • 2023: Faculdade Descomplica
    • Professor autor da disciplina de Processamento de Linguagem Natural do curso de graduação Tecnologia em Ciência de Dados
  • 2020: University Center for Computer Corpus Research on Language (UCREL/Lancaster University)
    • Assistente de pesquisa, responsável pelo desenvolvimento de sistema de anotação semântica de textos em árabe utilizando Python. O programa é uma versão em árabe do USAS (UCREL Semantic Analysis System). O projeto se desenvolveu numa parceria entre Lancaster University, Zayed University e New York Abu Dhabi University.
  • 2019-2020: Departamento de Letras da PUC-Rio
    • Bolsista de iniciação científica pelo CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico)
    • Participação, durante um ano e meio, no projeto “Construção de datasets para o PLN de Língua Portuguesa”, sob coordenação da Prof.ª Dr.ª Cláudia Freitas do Departamento de Letras da PUC-Rio. Financiado pelo CNPq, o projeto contribuiu para o desenvolvimento das versões 2.4, 2.5 e 2.6 do treebank em língua portuguesa Bosque-UD, que é parte do framework Universal Dependencies. Deste projeto resultou uma documentação detalhada das escolhas gramaticais inerentes à anotação em língua portuguesa neste formato. Também foram desenvolvidas ferramentas para análise e anotação de corpora que foram usadas por outros pesquisadores e várias publicações foram realizadas no âmbito do Processamento de Linguagem Natural.
  • 2018-2019: Departamento de Informática da PUC-Rio
    • Estagiário no Núcleo de Inovação Tecnológica
    • Desenvolvimento de sistema de reconhecimento de fala e identificação/extração de informações de texto no âmbito da Linguística Computacional/PLN em projeto financiado pelo Banco BTG Pactual.
  • 2018: Núcleo de Orientação e Apoio Psicopedagógico (NOAP/PUC-Rio)
    • Voluntário da equipe de Leitura e Escrita
    • Apoio a alunos de diferentes cursos da Universidade com necessidade de aprimoramento das suas habilidades de leitura e escrita acadêmicas.
  • 2017: Secretaria Municipal de Educação - Rio de Janeiro
    • Bolsista de iniciação à docência pela CAPES/MEC (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior/Ministério da Educação)
    • Atuação como professor assistente de Língua Portuguesa para os 6º e 7º anos do Ensino Fundamental II em escola da rede municipal da cidade do Rio de Janeiro.

Educação

  • 2024-atual: Doutorado em Ciências de Computação e Matemática Computacional pela Universidade de São Paulo (ICMC/USP)
    • Pesquisa na linha de Processamento de Linguagem Natural
  • 2023-atual: Pós-graduação lato sensu em Business Intelligence e Ciência de Dados (BI MASTER/PUC-Rio)
  • 2021-2023: Mestrado em Estudos da Linguagem pela Pontifícia Universidade Católica do Rio de Janeiro (PPGEL/PUC-Rio)
  • 2017-2020: Bacharelado em Letras Português/Inglês e respectivas literaturas pela Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)
    • Bolsista integral pelo ProUni (Programa Universidade para Todos)
    • CR: 9,5
  • 2021: Curso de Extensão Universitária “Python para Processamento de Linguagem Natural”, concluído pelo Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC/USP)
  • 2021: Minicurso “Introdução à Linguística de Corpus”, ministrado pela Prof. Dra. Andressa Rodrigues Gomide, da Universidade de Coimbra, ao Programa Interdisciplinar de Pós-Graduação em Linguística Aplicada da Faculdade de Letras da UFRJ
  • 2020: Curso “Formação em processamento de corpos, PLN, anotação, e estatística”, parte do projeto BILLIG, ministrado pela profa. Diana Santos da Universidade de Oslo
  • 2019: Disciplina “Introdução à Interação Humano-Computador”, do Departamento de Informática da PUC-Rio
    • Créditos: 4
  • 2019: Curso “Inteligência Artificial II (IA II)”, do Laboratório de Inteligência Computacional Aplicada, concluído pela CCE/PUC-Rio
  • 2019: Curso “Inteligência Artificial I (IA I)”, do Laboratório de Inteligência Computacional Aplicada, concluído pela CCE/PUC-Rio
  • 2014-2016: Colégio de São Bento do Rio de Janeiro

Habilidades

  • Conhecimento de diversas linguagens de programação
  • Desenvolvimento back-end (Python, Flask/Django) e front-end (Web e PWA com JavaScript, Pascal/Lazarus)
  • Conhecimento de infraestrutura web (Apache), aprendizado de máquina, Linux e Git

Portfólio

Publicações

2023

  • FREITAS, Cláudia; Souza, Elvis; Castro, Maria Clara; Cavalcanti, Tatiana; Ferreira da Silva, Patrícia; & Corrêa Cordeiro, Fábio. Recursos linguísticos para o PLN específico de domínio: o Petrolês. In: Linguamática, 15(2), 2023. p. 51-68. https://doi.org/10.21814/lm.15.2.412.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Annotation of fixed Multiword Expressions (MWEs) in a Portuguese Universal Dependencies (UD) treebank: Gathering candidates from three different sources. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 442-450. DOI: https://doi.org/10.5753/stil.2023.25484.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Um pronome com muitas funções: Descrição e resultados da anotação do pronome -se em um treebank segundo o esquema Universal Dependencies (UD) para Português. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 278-287. DOI: https://doi.org/10.5753/stil.2023.233986.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Explorando variações no tagset e na anotação Universal Dependencies (UD) para Português: Possibilidades e resultados com base no treebank PetroGold. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 125-134. DOI: https://doi.org/10.5753/stil.2023.233980.

  • DE SOUZA, Elvis. Construção e avaliação de um treebank padrão ouro. Mestrado, PUC-Rio, 2023. https://doi.org/10.17771/PUCRio.acad.62693

  • FREITAS, Cláudia; DE SOUZA, Elvis. A study on methods for revising dependency treebanks: in search of gold. In: Lang Resources & Evaluation. Springer, 2023. DOI: https://doi.org/10.1007/s10579-023-09653-4.

2022

  • KHALLAF, Nouran; DE SOUZA, Elvis; EL-HAJ, Mahmoud; RAYSON, Paul. Semantic domains across topics, genders and languages. In: Bilingual Writers and Corpus Analysis. Routledge, 2022. p. 96-120.

  • EL-HAJ, Mahmoud; RAYSON, Paul; DE SOUZA, Elvis; KHALLAF, Nouran; HABASH, Nizar. AraSAS: The Open Source Arabic Semantic Tagger. In: Proceedings of the 5th Workshop on Open-Source Arabic Corpora and Processing Tools with Shared Tasks on Qur’an QA and Fine-Grained Hate Speech Detection, p. 23-31, Marseille, France. European Language Resources Association (ELRA), 2022. Disponível em: http://www.lrec-conf.org/proceedings/lrec2022/workshops/OSACT/pdf/2022.osact-1.3.pdf. Acesso em: 24 de jun. 2022.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Still on arguments and adjuncts: the status of the indirect object and the adverbial adjunct relations in Universal Dependencies for Portuguese. In: Proceedings of the Universal Dependencies Brazilian Festival, p. 1–10, Fortaleza, Brazil. Association for Computational Linguistics, 2022. Disponível em: https://aclanthology.org/2022.udfestbr-1.5/. Acesso em: 11 de jun. 2022.

  • DE SOUZA, Elvis; FREITAS, Cláudia. Polishing the gold – how much revision do we need in treebanks?. In: Proceedings of the Universal Dependencies Brazilian Festival, p. 1–11, Fortaleza, Brazil. Association for Computational Linguistics, 2022. Disponível em: https://aclanthology.org/2022.udfestbr-1.2/. Acesso em: 11 de jun. 2022.

2021

  • DE SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; CASTRO, Maria Clara; FREITAS, Cláudia. PetroGold – Corpus padrão ouro para o domínio do petróleo. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13., 2021, Evento Online. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 29-38. DOI: https://doi.org/10.5753/stil.2021.17781.

  • DE SOUZA, Elvis; FREITAS, Cláudia. ET: A Workstation for Querying, Editing and Evaluating Annotated Corpora. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP 2021), p. 35-41, Online and in Punta Cana, Dominican Republic, November, 2021. Association for Computational Linguistics. Disponível em: https://aclanthology.org/2021.emnlp-demo.5/. Acesso em: 9 nov. 2021.

  • CAVALCANTI, Tatiana; SILVEIRA, Aline; DE SOUZA, Elvis; FREITAS, Cláudia. Os limites da palavra e da sentença no processamento automático de textos. Revista Brasileira de Iniciação Científica, [S. l.], v. 8, p. e021033, 2021. Disponível em: https://periodicoscientificos.itp.ifsp.edu.br/index.php/rbic/article/view/348. Acesso em: 15 out. 2021.

  • FREITAS, Cláudia; DE SOUZA, Elvis. Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach. REVISTA DE ESTUDOS DA LINGUAGEM, [S.l.], v. 29, n. 2, p. 1033-1058, mar. 2021. ISSN 2237-2083. Available at: http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/17439. Date accessed: 20 mar. 2021. DOI: http://dx.doi.org/10.17851/2237-2083.29.2.1033-1058.

  • DE SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; CASTRO, Maria Clara; FREITAS, Cláudia. Documentação da anotação morfossintática do PetroGold. 2021. Disponível em: https://www.researchgate.net/publication/365597977_Documentacao_da_anotacao_morfossintatica_do_PetroGold. Acesso em: 21 de nov. 2022.

2020

2019

2018