Optimization techniques applied to machine learning model development

Optimization techniques applied to machine learning model development

Esta tesis doctoral ha sido desarrollada por José Carlos García García, bajo la supervisión del Dr. Ricardo García Ródenas y el Dr. José Ángel Martín Baos en la Universidad de Castilla-La Mancha. La tesis fue defendida el 11 de octubre de 2024.

Resumen

Las técnicas de aprendizaje automático (ML) han surgido como herramientas esenciales para resolver una amplia gama de desafíos, mejorando significativamente los procesos de toma de decisiones dentro de las organizaciones. Su gran rendimiento se deriva de los grandes volúmenes de datos producidos diariamente por los usuarios. Entre los diversos métodos de ML, el clustering se utiliza en el análisis de datos para agrupar puntos de datos en clusters, donde cada cluster contiene elementos con características similares. Estos algoritmos ayudan a identificar patrones y estructuras dentro de los datos. El método de clustering por picos de densidad (DPC) destaca como uno de los algoritmos más eficientes en la identificación de clusters con densidades variables y formas no convexas. Sin embargo, la dependencia de DPC en la selección manual de los centroides y el ajuste de los hyperparámetros presenta importantes desafíos, especialmente cuando se aplica a conjuntos de datos desconocidos o complejos.

Para superar estas limitaciones, esta tesis doctoral propone una metodología basada en la optimización que automatiza la selección de los centroides y la configuración de parámetros en el DPC. El enfoque utiliza índices de validez interna y externa de los clusters, como la entropía gaussiana y V-Measure, respectivamente, para guiar el proceso de selección de los centroides y el ajuste de los parámetros. Los experimentos numéricos realizados con datasets reales validan la metodología propuesta, mostrando que el ajuste automático de DPC y del Fuzzy Weighted K-Nearest Neighbor DPC (FKNN-DPC) supera a los métodos tradicionales en términos de eficiencia y precisión.

Además, los datos recopilados de diversas fuentes a menudo incluyen información adicional o complementaria etiquetada, que puede utilizarse para mejorar el valor de los métodos de aprendizaje automático. Estas etiquetas pueden incluir factores socioeconómicos o datos geográficos, proporcionando un contexto más rico para el análisis. En respuesta a esto, la presente tesis doctoral introduce un nuevo enfoque de aprendizaje automático por partes que incorpora estas variables etiquetadas adicionales en el análisis de series temporales. Esta metodología se aplicó a los datos de consumo de electricidad, donde se formuló un problema de optimización binivel. El enfoque propuesto permite la segmentación de datos según regiones geográficas, dando lugar a distintos modelos de regresión dentro de cada región. El modelo autorregresivo por partes muestra un error relativo menor en comparación con los modelos tradicionales, lo que resalta la efectividad de este método para mejorar la precisión de las predicciones e identificar patrones entre los consumidores eléctricos.

Para abordar el alto costo computacional asociado con el problema de optimización anterior, esta tesis doctoral investiga la aplicación de Métodos de Superficie de Respuesta (RSM), particularmente en entornos de computación paralela, utilizando un marco cooperativo para algoritmos RSM paralelos, definiendo una clase referida como Algoritmos Secuenciales de Muestreo Múltiple (SMISA). Este marco mejora la robustez del proceso de optimización al permitir el intercambio de soluciones entre múltiples algoritmos. El algoritmo propuesto, denominado CPEI, que integra un algoritmo basado en funciones de base radial (CORS-RBF) con un método basado en kriging (EGO-PEI), fue evaluado utilizando funciones de referencia. Los resultados demostraron que CPEI no solo reduce el tiempo computacional, sino que también mejora las propiedades de convergencia en comparación con los métodos tradicionales.

En conjunto, esta tesis doctoral hace importantes contribuciones al desarrollo y aplicación de técnicas de optimización para la construcción de modelos de aprendizaje automático, ofreciendo metodologías que son tanto innovadoras como prácticas a la hora de abordar problemas complejos y de alta dimensionalidad en el este campo.