7  Conclusiones

A lo largo de seis capítulos hemos presentado el material de la asignatura de Modelos Estadísticos para la Predicción del Grado en Matemáticas.

En este capítulo final, te invitamos a reflexionar sobre las principales lecciones aprendidas durante el curso y a destacar cómo el rigor matemático que caracteriza vuestra formación se convierte en una herramienta indispensable para dominar el modelado estadístico. Además, animamos a los estudiantes a continuar explorando y ampliando sus conocimientos en cursos posteriores, consolidando así una base sólida para afrontar los desafíos de la ciencia de datos moderna desde una perspectiva analítica y fundamentada.

Al finalizar este recorrido, queda patente que el modelado estadístico es mucho más que una colección de técnicas; es un marco de pensamiento estructurado para comprender la incertidumbre y extraer conocimiento a partir de los datos. Hemos transitado desde los axiomas teóricos de la regresión hasta su aplicación computacional, equipando a los futuros matemáticos con las herramientas para construir, validar e interpretar modelos robustos.

7.1 Resumen de los aprendizajes

A lo largo de este manual, hemos construido un conocimiento progresivo sobre el modelado predictivo, cubriendo los siguientes pilares:

  1. Fundamentos del modelado lineal: simple y múltiple: Hemos partido de la formulación teórica del modelo lineal, estableciendo sus componentes axiomáticos y los supuestos de Gauss-Markov que garantizan las propiedades óptimas de los estimadores de Mínimos Cuadrados Ordinarios (MCO). Se ha hecho hincapié en la transición del modelo simple al múltiple, destacando el principio de ceteris paribus para la interpretación de coeficientes, el diagnóstico de la multicolinealidad mediante el VIF y la evaluación de la bondad de ajuste a través de la descomposición ANOVA y el \(R^2\) ajustado.

  2. Ingeniería de características y flexibilidad del modelo: Exploramos cómo superar las limitaciones de un modelo estrictamente lineal. Aprendimos a diagnosticar y corregir violaciones de los supuestos mediante transformaciones de variables (logarítmica, Box-Cox), a incorporar predictores no numéricos a través de la codificación de variables categóricas, y, fundamentalmente, a modelar relaciones complejas mediante la inclusión de términos de interacción, entendiendo cómo el efecto de un predictor puede depender del valor de otro.

  3. Selección de variables, regularización y validación: Abordamos el crucial dilema sesgo-varianza y la necesidad de construir modelos parsimoniosos que generalicen bien a datos no observados. Se presentaron los criterios de información (AIC, BIC) y los métodos por pasos (stepwise) como herramientas para comparar y seleccionar modelos. Profundizamos en los métodos de regularización (Ridge, Lasso y Elastic Net), que ofrecen una alternativa moderna y robusta para manejar la multicolinealidad y realizar selección de variables de forma simultánea, especialmente en contextos de alta dimensionalidad. Finalmente, se consolidó la importancia de la validación cruzada como el estándar para una evaluación honesta del rendimiento predictivo del modelo.

  4. Modelos lineales generalizados (GLM): Expandimos el marco de la regresión más allá de la asunción de normalidad en la variable respuesta. A través de la introducción de la familia exponencial de distribuciones y las funciones de enlace, entendimos cómo adaptar el modelo lineal a diferentes tipos de datos. Nos centramos en dos de los GLM más importantes: la Regresión Logística para modelar resultados binarios y la Regresión de Poisson para datos de conteo, aprendiendo a interpretar sus coeficientes en términos de odds ratios y tasas de eventos, respectivamente.

7.2 Reflexiones finales

El estudio de los Modelos Estadísticos para la Predicción dota al matemático de un puente entre la teoría abstracta y la resolución de problemas del mundo real. A lo largo de este curso, hemos visto cómo conceptos rigurosos —espacios vectoriales en la geometría de MCO, optimización en la estimación de parámetros, y teoría de la probabilidad en la inferencia— se materializan en herramientas prácticas para la toma de decisiones bajo incertidumbre.

Hemos aprendido que construir un modelo no es un acto mecánico, sino un proceso iterativo de diagnóstico, crítica y refinamiento. La capacidad para evaluar la validez de los supuestos, interpretar los resultados con cautela y comunicar tanto las fortalezas como las limitaciones de un modelo es lo que distingue a un analista competente. La interpretabilidad y la validación rigurosa no son meros pasos finales, sino el núcleo de una práctica estadística honesta y efectiva.

En un mundo saturado de datos, la habilidad para construir modelos que no solo predicen, sino que también explican y ofrecen certidumbre cuantificable, es más valiosa que nunca.

7.3 Proyección futura: El valor del rigor matemático

Las competencias adquiridas en esta asignatura son la culminación de vuestra carrera, el punto donde el álgebra lineal, el cálculo y la optimización se convierten en el motor de la modelización estadística aplicada. Vuestra formación matemática os proporciona una ventaja fundamental: la capacidad de ir más allá de la aplicación mecánica de un algoritmo para comprender en profundidad los supuestos que lo sustentan, la geometría de su funcionamiento y la incertidumbre inherente a sus conclusiones.

Conceptos como la regularización y la validación cruzada son el lenguaje compartido con el Aprendizaje Automático. Mientras que el Aprendizaje Automático a menudo se centra en la potencia predictiva de algoritmos complejos, este curso os ha proporcionado la “gramática” estadística para construir modelos interpretables, diagnosticar su validez y cuantificar la fiabilidad de sus resultados. Esta base teórica es indispensable para aplicar, y en un futuro desarrollar, cualquier técnica de modelado de forma rigurosa y responsable.

Esta habilidad para analizar críticamente los modelos es precisamente lo que el mercado y el mundo académico demandan. Os posiciona de manera ideal para roles avanzados como Científico de Datos, Analista Cuantitativo (‘Quant’) en el sector financiero, o Bioestadístico, así como para continuar vuestra formación con estudios de postgrado (Máster o Doctorado) donde la investigación y el desarrollo de nuevos métodos es primordial.

En definitiva, habéis adquirido un conjunto de herramientas analíticas que os permitirá traducir problemas complejos en modelos manejables y basados en evidencia.

¡Mucha suerte en vuestra trayectoria profesional!