Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”

MARTINS, Victor Simões

Use este identificador para citar ou linkar para este item: https://repositorio.ufpa.br/jspui/handle/2011/17390

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	MARTINS, Victor Simões	-
dc.date.accessioned	2025-05-20T19:09:59Z	-
dc.date.available	2025-05-20T19:09:59Z	-
dc.date.issued	2024-02-01	-
dc.identifier.citation	MARTINS, Victor Simões. Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”. 2024. 78 f. Orientador: Cleison Daniel Silva Dissertação (Mestrado em Computação Aplicada) – Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2024. Disponível em: https://repositorio.ufpa.br/jspui/handle/2011/17390. Acesso em:.	pt_BR
dc.identifier.uri	https://repositorio.ufpa.br/jspui/handle/2011/17390	-
dc.description.abstract	The application of Natural Language Processing (NLP) and Artificial Intelligence (AI) in the Brazilian legal context is a rapidly growing area that can alter the way legal professionals work, given the volume of generated text. Among the possible applications of NLP and AI is the automatic classification of documents, which, among other things, can be employed in the automation of the digitization process of Judicial Proceedings that are still in physical form. Therefore, this work applies and compares AI algorithms for the classification of legal documents. The algorithms are divided into two different approaches. The first approach (I) separates the computational representation process of the text from the classifier training itself and applies SVM and Logistic Regression in conjunction with computational representations based on TF-IDF, Word2Vec, FastText, and BERT. The second approach (II) simultaneously performs the computational representation of documents and the training of the classifier, applying Deep Learning algorithms based on recurrent neural networks, specifically ULMFiT (Universal Language Model Fine-tuning), and HAN (Hierarchical Attention Networks). The studied dataset is named VICTOR, composed of documents from the Supreme Federal Court (STF) of Brazil. The research concludes that both approaches can be applied to the classification of legal documents from the employed dataset. Additionally, despite being less computationally expensive, the classification pipelines of Approach I, which use the computational representation of the document with TF-IDF, yield results equivalent to pipelines employing Deep Learning. Furthermore, embedding documents specialization with data from the dataset under study, improves the performance of pipelines that employ Word2Vec, FastText and ULMFiT, compared to pipelines that apply the generic representations of these, i.e., models pre-trained with data from the general context.	pt_BR
dc.description.provenance	Submitted by Melissa Feitosa (melissa.feitosa@tucurui.ufpa.br) on 2025-05-14T18:26:58Z No. of bitstreams: 2 Dissertacao_AplicacoesComparacaoTecnicas.pdf: 2740821 bytes, checksum: 37938c31998f95eec91b9ba3da1736cd (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)	en
dc.description.provenance	Approved for entry into archive by Mayara Menezes (mayara@ufpa.br) on 2025-05-20T19:09:59Z (GMT) No. of bitstreams: 2 Dissertacao_AplicacoesComparacaoTecnicas.pdf: 2740821 bytes, checksum: 37938c31998f95eec91b9ba3da1736cd (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)	en
dc.description.provenance	Made available in DSpace on 2025-05-20T19:09:59Z (GMT). No. of bitstreams: 2 Dissertacao_AplicacoesComparacaoTecnicas.pdf: 2740821 bytes, checksum: 37938c31998f95eec91b9ba3da1736cd (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Previous issue date: 2024-02-01	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal do Pará	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.source.uri	Disponível na internet via Sagitta	pt_BR
dc.subject	Classificação de documentos	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Documentos jurídico	pt_BR
dc.subject	Documents classification	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Natural language processing	pt_BR
dc.subject	Legal documents	pt_BR
dc.title	Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”	pt_BR
dc.type	Dissertação	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Núcleo de Desenvolvimento Amazônico em Engenharia - NDAE/Tucuruí	pt_BR
dc.publisher.initials	UFPA	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	pt_BR
dc.contributor.advisor1	SILVA, Cleison Daniel	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1445401605385329	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/5701313497459426	pt_BR
dc.description.resumo	A aplicação do Processamento de Linguagem Natural (PLN) e Inteligência Artifical (IA) no contexto jurídico brasileiro é uma área em franco crescimento, que pode alterar o modo e rotina de trabalho dos profissionais da área, dada a quantidade de texto gerada. Dentre as possibilidades de aplicação da PLN e IA há a classificação automática de documentos, que dentre outras, pode ser empregada na automatização do processo de digitalização de Processos Judiciais que ainda estão apenas em meio físico. Assim, este trabalho aplica e compara algoritmos de IA para a classificação de documentos jurídicos. Os algoritmos são divididos em duas Abordagens diferentes, a primeira (I) separa o processo representação computacional do texto do treinamento do classificador em si aplicando SVM e Regressão Logística em conjunto com representações computacionais baseadas em: TF-IDF, Word2Vec, FastText e BERT. A segunda Abordagem (II) realiza em conjunto a representação computacional dos documentos e o treinamento do classificador, e para tal são aplicados algoritmos de Deep Learning baseados em redes neurais recorrentes, especificamente o ULMFiT (Universal Language Model Fine-tuning) e HAN (Hierarchical Attention Networks). O Dataset estudado é denominado VICTOR, composto por documentos do Supremo Tribunal Federal (STF) do Brasil. A pesquisa conclui pela possibilidade de aplicação de ambas abordagens para a classificação de documentos jurídicos do Dataset empregado, bem como, apesar de menos custosos computacionalmente, os pipelines de classificação da Abordagem I que empregam a representação computacional do documento com TF-IDF apresentam resultados equivalentes aos pipelines que empregam Deep Learning. Além disso, a especialização da representação computacional dos documentos com os dados do dataset em estudo, melhoram o desempenho dos pipelines que empregam Word2Vec, FastText e ULMFiT, quando comparados aos pipelines que aplicam as representações genéricas desses, ou seja, modelos pré-treinados com dados do contexto geral.	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Computação Aplicada	pt_BR
dc.subject.linhadepesquisa	DESENVOLVIMENTO DE SISTEMAS	pt_BR
dc.subject.areadeconcentracao	COMPUTAÇÃO APLICADA	pt_BR
dc.description.affiliation	MPF - Ministério Público Federal	pt_BR
dc.contributor.advisor1ORCID	https://orcid.org/0000-0001-8280-2928	pt_BR
Aparece nas coleções:	Dissertações em Computação Aplicada (Mestrado) - PPCA/NDAE/Tucuruí

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Dissertacao_AplicacaoComparacaoTecnicas.pdf		2,68 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons