Prototipação de ontologias: a busca por garantias na análise de conteúdo assistida por Modelos Linguísticos de Grande Porte (LLMs)

Conter, Adelio de Souza

Prototipação de ontologias: a busca por garantias na análise de conteúdo assistida por Modelos Linguísticos de Grande Porte (LLMs)

dc.contributor.author	Conter, Adelio de Souza
dc.date.accessioned	2026-05-18T13:45:08Z
dc.date.available	2026-05-18T13:45:08Z
dc.date.issued	2026-05-18
dc.description	Tese apresentada ao Programa de Pós-Graduação Interdisciplinar em Energia e Sustentabilidade da Universidade Federal da Integração Latino-Americana, como requisito parcial à obtenção do título de Doutor em Energia e Sustentabilidade.
dc.description.abstract	O avanço da Inteligência Artificial Generativa e dos Modelos Linguísticos de Grande Porte (LLMs) transformou a produção de conhecimento científico. Contudo, embora demonstrem alta capacidade generativa, a ausência de mecanismos de auditoria compromete a confiabilidade das ontologias produzidas em domínios críticos, como saúde, mobilidade e sustentabilidade. O problema central desta pesquisa reside na fragilidade epistêmica desses artefatos automatizados, exigindo métodos que garantam sua validade conceitual e técnica. Esta pesquisa propõe um modelo de verificação por tripla garantia para ontologias assistidas por LLMs, aplicado ao monitoramento cardiovascular em veículos inteligentes, área que integra engenharia biomédica, computação embarcada e ciências da saúde. A metodologia adotou abordagem experimental, utilizando o protocolo ProKnow-C para a delimitação de um corpus de 16 artigos selecionados entre 1.337 identificados. A extração de conceitos empregou a técnica LACA (LLM-Assisted Content Analysis) com o ChatGPT-5, processando 155 mil palavras para a identificação de 44 termos candidatos. A análise foi estruturada em três dimensões complementares. O Índice de Garantia Literária (IGL) mediu a ancoragem em bases acadêmicas, revelando que 86,4% dos termos apresentavam baixa frequência na literatura especializada, o que evidencia a tendência dos LLMs à supergeração conceitual. O Índice de Garantia Social (IGS) avaliou a presença em fontes não acadêmicas, revelando um hiato semântico entre o discurso científico e o público-industrial, exemplificado pelo termo "CardiacAlert" (IGL: 0,00; IGS: 32,58). Essa dissimetria demonstra que ontologias baseadas exclusivamente em garantias literárias podem ser socialmente desconectadas de aplicações práticas. O Índice de Garantia Conceitual (IGC), operacionalizado pela metodologia OntoForInfoScience, resultou em um índice global de 0,62, classificando a ontologia como "Conceitualmente Adequada". Embora o LLM tenha produzido uma estrutura sintaticamente plausível, os testes apontaram fragilidades em axiomas lógicos e disjunções formais. Todavia, a verificação estrutural via raciocinador e consultas DL Queries confirmou a consistência lógica do artefato para operabilidade preliminar. Conclui-se que, embora os LLMs acelerem a fase inicial da engenharia de conhecimento, seu uso isolado é insuficiente para produzir artefatos confiáveis. A principal contribuição deste trabalho é a proposição do modelo de tripla garantia como ferramenta diagnóstica que equilibra a velocidade da automação com o rigor epistêmico necessário a domínios de alta criticidade. Resumen El avance de la Inteligencia Artificial Generativa y los Modelos de Lenguaje Extensos (LLMs) ha transformado la producción de conocimiento científico. Sin embargo, a pesar de su alta capacidad generativa, la ausencia de mecanismos de auditoría compromete la confiabilidad de las ontologías producidas en dominios críticos como la salud, la movilidad y la sostenibilidad. El problema central de esta investigación radica en la fragilidad epistémica de estos artefactos automatizados, lo que exige métodos que garanticen su validez conceptual y técnica. Esta investigación propone un modelo de verificación por triple garantía para ontologías asistidas por LLMs, aplicado al monitoreo cardiovascular en vehículos inteligentes, área que integra la ingeniería biomédica, la computación embebida y las ciencias de la salud. La metodología adoptó un enfoque experimental, utilizando el protocolo ProKnow-C para la delimitación de un corpus de 16 artículos seleccionados entre 1.337 identificados. La extracción de conceptos empleó la técnica LACA (LLM-Assisted Content Analysis) con ChatGPT-5, procesando 155.000 palabras para la identificación de 44 términos candidatos. El análisis se estructuró en tres dimensiones complementarias. El Índice de Garantía Literaria (IGL) midió el anclaje en bases académicas, revelando que el 86,4% de los términos presentaba baja frecuencia en la literatura especializada, lo que evidencia la tendencia de los LLMs hacia la supergeneración conceptual. El Índice de Garantía Social (IGS) evaluó la presencia en fuentes no académicas, revelando una brecha semántica entre el discurso científico y el público-industrial, ejemplificado por el término "CardiacAlert" (IGL: 0,00; IGS: 32,58). Esta dismetría demuestra que las ontologías basadas exclusivamente en garantías literarias pueden estar socialmente desconectadas de las aplicaciones prácticas. El Índice de Garantía Conceptual (IGC), operado mediante la metodología OntoForInfoScience, resultó en un índice global de 0,62, clasificando la ontologia como "Conceptualmente Adecuada". Aunque el LLM produjo una estructura sintácticamente plausible, las pruebas señalaron debilidades en los axiomas lógicos y las disyunciones formales. No obstante, la verificación estructural a través de razonadores y consultas DL Queries confirmó la consistencia lógica del artefacto para su operabilidad preliminar. Se concluye que, si bien los LLMs aceleran la fase inicial de la ingeniería del conocimiento, su uso aislado es insuficiente para producir artefactos confiables. La principal contribución de este trabajo es la propuesta del modelo de triple garantía como una herramienta diagnóstica que equilibra la velocidad de la automatización con el rigor epistémico necesario para dominios de alta criticidad.
dc.identifier.uri	https://dspace.unila.edu.br/handle/123456789/9811
dc.rights	openAccess
dc.subject	engenharia de ontologias
dc.subject	tripla garantia epistêmica
dc.subject	mobilidade sustentável
dc.subject	inteligência artificial generativa
dc.title	Prototipação de ontologias: a busca por garantias na análise de conteúdo assistida por Modelos Linguísticos de Grande Porte (LLMs)
dcterms.abstract	The advancement of Generative Artificial Intelligence and Large Language Models (LLMs) has transformed scientific knowledge production. However, despite their high generative capacity, the absence of auditing mechanisms compromises the reliability of ontologies produced in critical domains such as healthcare, mobility, and sustainability. The central problem of this research lies in the epistemic fragility of these automated artifacts, requiring methods that ensure their conceptual and technical validity. This research proposes a triple-guarantee verification model for LLM-assisted ontologies, applied to cardiovascular monitoring in intelligent vehicles—a field integrating biomedical engineering, embedded computing, and health sciences. The methodology adopted an experimental approach, using the ProKnow-C protocol to delimit a corpus of 16 articles selected from 1,337 identified records. Concept extraction employed the LACA (LLM-Assisted Content Analysis) technique with ChatGPT-5, processing 155,000 words to identify 44 candidate terms. The analysis was structured into three complementary dimensions. The Literary Warrant Index (LWI) measured anchoring in academic databases, revealing that 86.4% of the terms had low frequency in specialized literature, highlighting the tendency of LLMs toward conceptual over-generation. The Social Warrant Index (SWI) evaluated presence in non-academic sources, revealing a semantic gap between scientific and public-industrial discourse, exemplified by the term "CardiacAlert" (LWI: 0.00; SWI: 32.58). This dissymmetry demonstrates that ontologies based exclusively on literary warrants may be socially disconnected from practical applications. The Conceptual Warrant Index (CWI), operationalized through the OntoForInfoScience methodology, resulted in a global index of 0.62, classifying the ontology as "Conceptually Adequate." Although the LLM produced a syntactically plausible structure, tests pointed to weaknesses in logical axioms and formal disjunctions. Nevertheless, structural verification via reasoners and DL Queries confirmed the logical consistency of the artifact for preliminary operability. It is concluded that while LLMs accelerate the initial phase of knowledge engineering, their isolated use is insufficient to produce reliable artifacts. The main contribution of this work is the proposal of the triple-guarantee model as a diagnostic tool that balances automation speed with the epistemic rigor required for high-criticality domains.

Arquivos

Pacote Original

Agora exibindo 1 - 2 de 2

Nome:: Prototipação de ontologias: a busca por garantias na análise de conteúdo assistida por Modelos Linguísticos de Grande Porte (LLMs).pdf
Tamanho:: 3.6 MB
Formato:: Adobe Portable Document Format

Baixar

Nome:: Declaração de embargo.pdf
Tamanho:: 176.76 KB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.82 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

IES - Tese