Vozes do esquecimento: revelando o Alzheimer com a fala e aprendizado de máquina

Cardus, Julio Cesar Riveros

Vozes do esquecimento: revelando o Alzheimer com a fala e aprendizado de máquina

Arquivos

Vozes do esquecimento: revelando o Alzheimer com a fala e aprendizado de máquina.pdf (10.41 MB)

Data

2024

Autores

Cardus, Julio Cesar Riveros

Resumo

A doença de Alzheimer (DA) é a forma mais comum de demência, um desafio global de saúde pública, sem cura definitiva. A detecção precoce da DA é crítica para intervenções oportunas, mas os métodos de diagnóstico atuais são invasivos e caros. Este estudo explora a fala espontânea como um potencial biomarcador não invasivo para detecção precoce da DA usando técnicas de aprendizado de máquina. Dado que a fala é uma tarefa cognitivamente exigente impactada por processos neurodegenerativos, levantamos a hipótese de que a análise automatizada de características da fala pode identificar indivíduos em risco de demência. Esta pesquisa utiliza o conjunto de dados ADReSS 2020, compreendendo amostras de fala de indivíduos com DA e controles saudáveis, e emprega três blocos experimentais: análise de características acústicas, compressão de texto e embeddings de texto. No primeiro bloco, características acústicas (eGeMAPS, ComParE, emobase) são extraídas e combinadas com métodos de seleção de características (SUC, ERC, SFM, SSC) para treinar classificadores (LDA, DT, NN, SVM, RF). O segunda bloco aplica algoritmos de compressão de texto para calcular a Distância de Compressão Normalizada (NCD) entre transcrições de áudio, usando kNN para classificação e previsão de pontuação do Mini-Exame do Estado Mental (MMSE). A terceira estrutura aproveita embeddings de texto (NV-Embed-v2, STELLA, GTE) para detectar DA e prever pontuações do MMSE. Os modelos foram avaliados por meio de Validação Cruzada Leave-One-Out (LOSO) e validação de holdout. Todas as três abordagens demonstraram a capacidade de diferenciar entre DA e indivíduos saudáveis. Notavelmente, os modelos baseados em embeddings produziram as maiores acurácias de classificação, com GTE e LEM atingindo 86,54% e 85,90%, respectivamente. Para tarefas de regressão, o embedding STELLA combinada com Random Forest produziu a menor Raiz do Erro Quadrático Médio (RMSE) de 5,15. As análises estatísticas demonstraram a inexistência de diferenças significativas entre o uso de seletores de características e a aplicação de todos os atributos dos conjuntos de dados, e que há diferenças significativas entre os algoritmos de compressão e entre os embeddings, tanto para classificação quanto para regressão. Essas descobertas sugerem que a análise automatizada de fala espontânea usando aprendizado de máquina pode servir como uma ferramenta poderosa para o diagnóstico precoce de DA. Com precisões que ultrapassam 85%, esses métodos têm o potencial de permitir triagem e monitoramento não invasivos e econômicos da doença de Alzheimer em larga escala. Resumen La enfermedad de Alzheimer (EA) es la forma más común de demencia, un desafío de salud pública global sin cura definitiva. La detección temprana de la EA es fundamental para realizar intervenciones oportunas, pero los métodos de diagnóstico actuales son invasivos y costosos. Este estudio explora el habla espontánea como un posible biomarcador no invasivo para la detección temprana de la EA mediante técnicas de aprendizaje automático. Dado que el habla es una tarea cognitivamente exigente afectada por procesos neurodegenerativos, planteamos la hipótesis de que el análisis automatizado de las características del habla podría identificar a las personas con riesgo de demencia. Esta investigación utiliza el conjunto de datos ADReSS 2020, que comprende muestras de voz de personas con EA y controles sanos, y emplea tres bloques experimentales: análisis de características acústicas, compresión de texto e incrustaciones de texto. En el primer bloque, se extraen características acústicas (eGeMAPS, ComParE, emobase) y se combinan con métodos de selección de características (SUC, ERC, SFM, SSC) para entrenar clasificadores (LDA, DT, NN, SVM, RF). El segundo bloque aplica algoritmos de compresión de texto para calcular la distancia de compresión normalizada (NCD) entre transcripciones de audio, utilizando kNN para la clasificación y la predicción de la puntuación del miniexamen del estado mental (MMSE). El tercer marco aprovecha las incrustaciones de texto (NV-Embed-v2, STELLA, GTE) para detectar DA y predecir puntuaciones MMSE. Los modelos se evaluaron mediante validación cruzada Leave-One-Out (LOSO) y validación de exclusión. Los tres enfoques demostraron la capacidad de diferenciar entre personas con EA e individuos sanos. En particular, los modelos basados en incrustación produjeron las precisiones de clasificación más altas, con GTE y LEM alcanzando 86,54% y 85,90%, respectivamente. Para las tareas de regresión, la incrustación de STELLA combinada con Random Forest produjo el error cuadrático medio (RMSE) más bajo de 5,15. Los análisis estadísticos demostraron que no existen diferencias significativas entre el uso de selectores de características y la aplicación de todos los atributos de los conjuntos de datos, y que existen diferencias significativas entre los algoritmos de compresión y las incrustaciones, tanto para clasificación como para regresión. Estos hallazgos sugieren que el análisis automatizado del habla espontánea mediante el aprendizaje automático podría servir como una herramienta poderosa para el diagnóstico temprano de la EA. Con precisiones superiores al 85%, estos métodos tienen el potencial de permitir la detección y el seguimiento de la enfermedad de Alzheimer a gran escala de forma no invasiva y rentable.

Abstract

Alzheimer’s disease (AD) is the most common form of dementia, a global public health challenge with no definitive cure. Early detection of AD is critical for timely interventions, but current diagnostic methods are invasive and expensive. This study explores spontaneous speech as a potential noninvasive biomarker for early detection of AD using machine learning techniques. Given that speech is a cognitively demanding task impacted by neurodegenerative processes, we hypothesize that automated speech feature analysis can identify individuals at risk of dementia. This research uses the ADReSS 2020 dataset, comprising speech samples from individuals with AD and healthy controls, and employs three experimental blocks: acoustic feature analysis, text compression, and text embeddings. In the first block, acoustic features (eGeMAPS, ComParE, emobase) are extracted and combined with feature selection methods (SUC, ERC, SFM, SSC) to train classifiers (LDA, DT, NN, SVM, RF). The second block applies text compression algorithms to calculate the Normalized Compression Distance (NCD) between audio transcripts, using kNN for classification and Mini-Mental State Examination (MMSE) score prediction. The third framework leverages text embeddings (NV-Embed-v2, STELLA, GTE) to detect AD and predict MMSE scores. The models were evaluated using Leave-One-Out (LOSO) Cross-Validation and holdout validation. All three approaches demonstrated the ability to differentiate between AD and healthy individuals. Notably, the embedding-based models yielded the highest classification accuracies, with GTE and LEM reaching 86.54% and 85.90%, respectively. For regression tasks, STELLA embedding combined with Random Forest produced the lowest Root Mean Square Error (RMSE) of 5.15. Statistical analyses demonstrated that there were no significant differences between using feature selectors and applying all attributes to the datasets, and that there were significant differences between compression algorithms and embeddings for both classification and regression. These findings suggest that automated spontaneous speech analysis using machine learning could serve as a powerful tool for early diagnosis of AD. With accuracies exceeding 85%, these methods have the potential to enable noninvasive and cost-effective screening and monitoring of Alzheimer’s disease on a large scale.

Descrição

Trabalho de Conclusão de Curso apresentado ao Instituto Latino-Americano de Ciências da Vida e da Natureza da Universidade Federal da Integração Latino-Americana, como requisito parcial à obtenção do título de Bacharel em Biotecnologia.

Palavras-chave

Alzheimer, Doença de, aprendizado do computador, saúde pública, diagnóstico

URI

https://dspace.unila.edu.br/handle/123456789/8827

Coleções

TCC - Biotecnologia

Página do item completo

Vozes do esquecimento: revelando o Alzheimer com a fala e aprendizado de máquina

Arquivos

Data

Autores

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

Abstract

Descrição

Palavras-chave

Citação

URI

Coleções