Title: | Modelo de classificação de patentes baseado em representação vetorial densa, técnicas de ordenação e explicitação do conhecimento: Luciano Zamperetti Wolski ; orientador, Alexandre Leopoldo Gonçalves, coorientador, José Leomar Todesco. |
Author: | Wolski, Luciano Zamperetti |
Abstract: |
Anualmente, um grande volume de patentes é depositado nos escritórios de patentes em todo o mundo, pois é necessário que sejam detalhadas e detalhadas. Para tal, elas passam por uma avaliação detalhada realizada por especialistas (examinadores) em um determinado domínio, de modo que possa receber um rótulo. Esse processo é custoso para os escritórios de patentes, pois o aumento no número de pedidos de patentes e a complexidade da estrutura hierárquica de categorização sobrecarrega a avaliação das patentes pelos examinadores. Além disso, a classificação precisa desses documentos é de extrema importância para a interoperabilidade entre diferentes escritórios de patentes e para a realização de tarefas confiáveis ??de busca, gerenciamento e recuperação de patentes durante um procedimento de pedido de patente. Portanto, é fundamental automatizar o processo de classificação provendo meios para auxiliar os examinadores na tomada de decisão. Nesse sentido, o objetivo desta tese é propor um modelo voltado à classificação de patentes a partir de fonte de dados não estruturados na forma de texto levando em conta aspectos de ordenação de subclasses e explicitação de conhecimento. Para cumprir esse objetivo, fizemos uma revisão integrativa da literatura com o objetivo de definir as lacunas de pesquisa e identificar os métodos e técnicas mais adequadas. Após a proposição do modelo e seu desenvolvimento, este foi avaliado considerando um conjunto de dados de patentes disponibilizadas pelo United States Patent and Trademark Office® (USPTO) em dois cenários, um mais geral e outro mais específico. A acurácia na avaliação do cenário geral para recomendação de subclasses ordenadas (ranking) ficou em torno de 80% para as três arquiteturas de redes neurais do tipo transformadores quando consideramos como 5 (cinco) primeiras subclasses e um total de 50 documentos recuperados. No segundo cenário mais específico e com menos dados, em que o modelo foi comparado com redes neurais tradicionais na etapa de geração do ranking, os resultados foram mais expressivos, chegando a uma acurácia de 90%. Já quanto ao gráfico de conhecimento, sua avaliação e utilização na tarefa de classificação realizada pelos examinadores, apesar de avaliações específicas não terem sido realizadas, demonstram ser viáveis. Assim, a partir dos resultados obtidos, verifica-se que o modelo proposto permite facilitar o trabalho de examinadores na escolha de subclasses que melhor representem determinada patente. Abstract: Every year, a significant volume of patents is filed with patent offices worldwide and needs to be adequately analyzed and classified. To achieve this, they undergo a detailed evaluation conducted by domain-specific experts (examiners) in order to receive a label. This process imposes a considerable burden on patent offices due to the increase in patent applications and the complexity of the hierarchical categorization structure, which overwhelms patent examination by examiners. Furthermore, the accurate classification of these documents holds paramount importance for the interoperability among different patent offices and for conducting reliable tasks of patent search, management, and retrieval during a patent application procedure. Hence, it is imperative to automate the classification process by providing means to assist examiners in decision-making. In this context, the objective of this thesis is to propose a model focused on patent classification using unstructured data sources in the form of text, taking into consideration aspects of subclass ranking and knowledge explicitation. To fulfill this objective, an integrative literature review was conducted to define the research gap and identify the most suitable methods and techniques. Following the model's proposition and development, it was evaluated using a patent dataset provided by the United States Patent and Trademark Office® (USPTO) in two scenarios: a more general one and a more specific one. The accuracy in the evaluation of the general scenario for recommending ordered subclasses (ranking) was around 80% for the three transformer-based neural network architectures when considering the top five subclasses and a total of 50 retrieved documents. In the second, more specific scenario with less data, where the model was compared with traditional neural networks in the ranking generation step, the results were more significant, achieving an accuracy of 90%. Regarding the knowledge graph, while specific evaluations were not conducted, its evaluation and utilization in the classification task performed by examiners appear to be feasible. In this sense, based on the obtained results, it is observed that the proposed model effectively facilitates the work of examiners in selecting subclasses that best represent a given patent. |
Description: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2023. |
URI: | https://repositorio.ufsc.br/handle/123456789/251955 |
Date: | 2023 |
Files | Size | Format | View |
---|---|---|---|
PEGC0798-T.pdf | 6.940Mb |
View/ |