Use este identificador para citar ou linkar para este item: https://repositorio.ufpa.br/jspui/handle/2011/17390
Registro completo de metadados
Campo DCValorIdioma
dc.creatorMARTINS, Victor Simões-
dc.date.accessioned2025-05-20T19:09:59Z-
dc.date.available2025-05-20T19:09:59Z-
dc.date.issued2024-02-01-
dc.identifier.citationMARTINS, Victor Simões. Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”. 2024. 78 f. Orientador: Cleison Daniel Silva Dissertação (Mestrado em Computação Aplicada) – Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2024. Disponível em: https://repositorio.ufpa.br/jspui/handle/2011/17390. Acesso em:.pt_BR
dc.identifier.urihttps://repositorio.ufpa.br/jspui/handle/2011/17390-
dc.description.abstractThe application of Natural Language Processing (NLP) and Artificial Intelligence (AI) in the Brazilian legal context is a rapidly growing area that can alter the way legal professionals work, given the volume of generated text. Among the possible applications of NLP and AI is the automatic classification of documents, which, among other things, can be employed in the automation of the digitization process of Judicial Proceedings that are still in physical form. Therefore, this work applies and compares AI algorithms for the classification of legal documents. The algorithms are divided into two different approaches. The first approach (I) separates the computational representation process of the text from the classifier training itself and applies SVM and Logistic Regression in conjunction with computational representations based on TF-IDF, Word2Vec, FastText, and BERT. The second approach (II) simultaneously performs the computational representation of documents and the training of the classifier, applying Deep Learning algorithms based on recurrent neural networks, specifically ULMFiT (Universal Language Model Fine-tuning), and HAN (Hierarchical Attention Networks). The studied dataset is named VICTOR, composed of documents from the Supreme Federal Court (STF) of Brazil. The research concludes that both approaches can be applied to the classification of legal documents from the employed dataset. Additionally, despite being less computationally expensive, the classification pipelines of Approach I, which use the computational representation of the document with TF-IDF, yield results equivalent to pipelines employing Deep Learning. Furthermore, embedding documents specialization with data from the dataset under study, improves the performance of pipelines that employ Word2Vec, FastText and ULMFiT, compared to pipelines that apply the generic representations of these, i.e., models pre-trained with data from the general context.pt_BR
dc.description.provenanceSubmitted by Melissa Feitosa (melissa.feitosa@tucurui.ufpa.br) on 2025-05-14T18:26:58Z No. of bitstreams: 2 Dissertacao_AplicacoesComparacaoTecnicas.pdf: 2740821 bytes, checksum: 37938c31998f95eec91b9ba3da1736cd (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)en
dc.description.provenanceApproved for entry into archive by Mayara Menezes (mayara@ufpa.br) on 2025-05-20T19:09:59Z (GMT) No. of bitstreams: 2 Dissertacao_AplicacoesComparacaoTecnicas.pdf: 2740821 bytes, checksum: 37938c31998f95eec91b9ba3da1736cd (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)en
dc.description.provenanceMade available in DSpace on 2025-05-20T19:09:59Z (GMT). No. of bitstreams: 2 Dissertacao_AplicacoesComparacaoTecnicas.pdf: 2740821 bytes, checksum: 37938c31998f95eec91b9ba3da1736cd (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Previous issue date: 2024-02-01en
dc.languageporpt_BR
dc.publisherUniversidade Federal do Parápt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.source.uriDisponível na internet via Sagittapt_BR
dc.subjectClassificação de documentospt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectDocumentos jurídicopt_BR
dc.subjectDocuments classificationpt_BR
dc.subjectMachine learningpt_BR
dc.subjectNatural language processingpt_BR
dc.subjectLegal documentspt_BR
dc.titleAplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”pt_BR
dc.typeDissertaçãopt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentNúcleo de Desenvolvimento Amazônico em Engenharia - NDAE/Tucuruípt_BR
dc.publisher.initialsUFPApt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.contributor.advisor1SILVA, Cleison Daniel-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1445401605385329pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/5701313497459426pt_BR
dc.description.resumoA aplicação do Processamento de Linguagem Natural (PLN) e Inteligência Artifical (IA) no contexto jurídico brasileiro é uma área em franco crescimento, que pode alterar o modo e rotina de trabalho dos profissionais da área, dada a quantidade de texto gerada. Dentre as possibilidades de aplicação da PLN e IA há a classificação automática de documentos, que dentre outras, pode ser empregada na automatização do processo de digitalização de Processos Judiciais que ainda estão apenas em meio físico. Assim, este trabalho aplica e compara algoritmos de IA para a classificação de documentos jurídicos. Os algoritmos são divididos em duas Abordagens diferentes, a primeira (I) separa o processo representação computacional do texto do treinamento do classificador em si aplicando SVM e Regressão Logística em conjunto com representações computacionais baseadas em: TF-IDF, Word2Vec, FastText e BERT. A segunda Abordagem (II) realiza em conjunto a representação computacional dos documentos e o treinamento do classificador, e para tal são aplicados algoritmos de Deep Learning baseados em redes neurais recorrentes, especificamente o ULMFiT (Universal Language Model Fine-tuning) e HAN (Hierarchical Attention Networks). O Dataset estudado é denominado VICTOR, composto por documentos do Supremo Tribunal Federal (STF) do Brasil. A pesquisa conclui pela possibilidade de aplicação de ambas abordagens para a classificação de documentos jurídicos do Dataset empregado, bem como, apesar de menos custosos computacionalmente, os pipelines de classificação da Abordagem I que empregam a representação computacional do documento com TF-IDF apresentam resultados equivalentes aos pipelines que empregam Deep Learning. Além disso, a especialização da representação computacional dos documentos com os dados do dataset em estudo, melhoram o desempenho dos pipelines que empregam Word2Vec, FastText e ULMFiT, quando comparados aos pipelines que aplicam as representações genéricas desses, ou seja, modelos pré-treinados com dados do contexto geral.pt_BR
dc.publisher.programPrograma de Pós-Graduação em Computação Aplicadapt_BR
dc.subject.linhadepesquisaDESENVOLVIMENTO DE SISTEMASpt_BR
dc.subject.areadeconcentracaoCOMPUTAÇÃO APLICADApt_BR
dc.description.affiliationMPF - Ministério Público Federalpt_BR
dc.contributor.advisor1ORCIDhttps://orcid.org/0000-0001-8280-2928pt_BR
Aparece nas coleções:Dissertações em Computação Aplicada (Mestrado) - PPCA/NDAE/Tucuruí

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertacao_AplicacaoComparacaoTecnicas.pdf2,68 MBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons