Please use this identifier to cite or link to this item:
https://repositorio.ufpa.br/jspui/handle/2011/17390
metadata.dc.type: | Dissertação |
Issue Date: | 1-Feb-2024 |
metadata.dc.creator: | MARTINS, Victor Simões |
metadata.dc.description.affiliation: | MPF - Ministério Público Federal |
metadata.dc.contributor.advisor1: | SILVA, Cleison Daniel |
Title: | Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor” |
Citation: | MARTINS, Victor Simões. Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”. 2024. 78 f. Orientador: Cleison Daniel Silva Dissertação (Mestrado em Computação Aplicada) – Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2024. Disponível em: https://repositorio.ufpa.br/jspui/handle/2011/17390. Acesso em:. |
metadata.dc.description.resumo: | A aplicação do Processamento de Linguagem Natural (PLN) e Inteligência Artifical (IA) no contexto jurídico brasileiro é uma área em franco crescimento, que pode alterar o modo e rotina de trabalho dos profissionais da área, dada a quantidade de texto gerada. Dentre as possibilidades de aplicação da PLN e IA há a classificação automática de documentos, que dentre outras, pode ser empregada na automatização do processo de digitalização de Processos Judiciais que ainda estão apenas em meio físico. Assim, este trabalho aplica e compara algoritmos de IA para a classificação de documentos jurídicos. Os algoritmos são divididos em duas Abordagens diferentes, a primeira (I) separa o processo representação computacional do texto do treinamento do classificador em si aplicando SVM e Regressão Logística em conjunto com representações computacionais baseadas em: TF-IDF, Word2Vec, FastText e BERT. A segunda Abordagem (II) realiza em conjunto a representação computacional dos documentos e o treinamento do classificador, e para tal são aplicados algoritmos de Deep Learning baseados em redes neurais recorrentes, especificamente o ULMFiT (Universal Language Model Fine-tuning) e HAN (Hierarchical Attention Networks). O Dataset estudado é denominado VICTOR, composto por documentos do Supremo Tribunal Federal (STF) do Brasil. A pesquisa conclui pela possibilidade de aplicação de ambas abordagens para a classificação de documentos jurídicos do Dataset empregado, bem como, apesar de menos custosos computacionalmente, os pipelines de classificação da Abordagem I que empregam a representação computacional do documento com TF-IDF apresentam resultados equivalentes aos pipelines que empregam Deep Learning. Além disso, a especialização da representação computacional dos documentos com os dados do dataset em estudo, melhoram o desempenho dos pipelines que empregam Word2Vec, FastText e ULMFiT, quando comparados aos pipelines que aplicam as representações genéricas desses, ou seja, modelos pré-treinados com dados do contexto geral. |
Abstract: | The application of Natural Language Processing (NLP) and Artificial Intelligence (AI) in the Brazilian legal context is a rapidly growing area that can alter the way legal professionals work, given the volume of generated text. Among the possible applications of NLP and AI is the automatic classification of documents, which, among other things, can be employed in the automation of the digitization process of Judicial Proceedings that are still in physical form. Therefore, this work applies and compares AI algorithms for the classification of legal documents. The algorithms are divided into two different approaches. The first approach (I) separates the computational representation process of the text from the classifier training itself and applies SVM and Logistic Regression in conjunction with computational representations based on TF-IDF, Word2Vec, FastText, and BERT. The second approach (II) simultaneously performs the computational representation of documents and the training of the classifier, applying Deep Learning algorithms based on recurrent neural networks, specifically ULMFiT (Universal Language Model Fine-tuning), and HAN (Hierarchical Attention Networks). The studied dataset is named VICTOR, composed of documents from the Supreme Federal Court (STF) of Brazil. The research concludes that both approaches can be applied to the classification of legal documents from the employed dataset. Additionally, despite being less computationally expensive, the classification pipelines of Approach I, which use the computational representation of the document with TF-IDF, yield results equivalent to pipelines employing Deep Learning. Furthermore, embedding documents specialization with data from the dataset under study, improves the performance of pipelines that employ Word2Vec, FastText and ULMFiT, compared to pipelines that apply the generic representations of these, i.e., models pre-trained with data from the general context. |
Keywords: | Classificação de documentos Aprendizado de máquina Processamento de linguagem natural Documentos jurídico Documents classification Machine learning Natural language processing Legal documents |
metadata.dc.subject.areadeconcentracao: | COMPUTAÇÃO APLICADA |
metadata.dc.subject.linhadepesquisa: | DESENVOLVIMENTO DE SISTEMAS |
metadata.dc.subject.cnpq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
metadata.dc.publisher.country: | Brasil |
Publisher: | Universidade Federal do Pará |
metadata.dc.publisher.initials: | UFPA |
metadata.dc.publisher.department: | Núcleo de Desenvolvimento Amazônico em Engenharia - NDAE/Tucuruí |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Computação Aplicada |
metadata.dc.rights: | Acesso Aberto |
metadata.dc.source.uri: | Disponível na internet via Sagitta |
Appears in Collections: | Dissertações em Computação Aplicada (Mestrado) - PPCA/NDAE/Tucuruí |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Dissertacao_AplicacaoComparacaoTecnicas.pdf | 2,68 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License