Publicación: Agente de inteligencia artificial para el apoyo a la primera impresión diagnóstica a partir de descripciones sintomáticas expresadas en lenguaje natural
Fecha
2025-11-24
Autores
Bertel Morales, Juan Pablo
dc.contributor.advisor
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad EAFIT
Resumen
This thesis proposes the development of an artificial intelligence (AI) agent capable of supporting the generation of an initial diagnostic impression based on symptoms expressed in natural language. The project is grounded in the recognition that medical diagnosis is a complex task prone to errors, particularly when it relies on subjective and unstructured descriptions.
To support clinical decision-making, natural language processing and machine learning techniques were applied following the CRISP-DM methodology. The model was trained using the synthetic DDxPlus dataset, which enabled the simulation of clinical scenarios without compromising real patient information.
In the process, symptoms were transformed into synthetic anamneses through semantic normalization and subsequently vectorized using various biomedical embedding models. These representations were then used to train a supervised model tasked with associating each narrative with the confirmed diagnosis.
As an additional evaluation, a “stress test” was conducted in a simulated environment, in which a healthcare professional interacted directly with the system to assess its ability to interpret real symptomatic descriptions and generate preliminary diagnostic suggestions in a coherent, consistent, and safe.
Descripción
Esta tesis propone el desarrollo de un agente de inteligencia artificial (IA) capaz de apoyar la generación de una primera impresión diagnóstica a partir de síntomas expresados en lenguaje natural. El proyecto parte del reconocimiento de que el diagnóstico médico es una tarea compleja y propensa a errores, especialmente cuando depende de descripciones subjetivas y no estructuradas.
Con el fin de apoyar la toma de decisiones clínicas, se aplicaron técnicas de procesamiento de lenguaje natural y aprendizaje automático bajo la metodología CRISP-DM. El modelo se entrenó utilizando el conjunto de datos sintéticos DDxPlus, lo que permitió simular escenarios clínicos sin comprometer información real de pacientes. En el proceso, los síntomas fueron transformados en anamnesis sintéticas mediante normalización semántica y posteriormente vectorizados con diferentes modelos de embeddings biomédicos. Estas representaciones se emplearon para entrenar un modelo supervisado encargado de asociar cada narrativa con el diagnóstico confirmado.
Como evaluación adicional, se llevó a cabo una “prueba de estrés” en un entorno simulado, en la cual un profesional de la salud interactuó directamente con el sistema para valorar su capacidad de interpretar descripciones sintomáticas reales y generar sugerencias diagnósticas preliminares de manera coherente, consistente y segura.
Citación
dc.relation.uri
dc.identifier.doi
dc.rights
Todos los derechos reservados