Resumen
El curso presenta las familias más complejas de algoritmos de regresión y clasificación para Machine Learning supervisado. Partiremos del análisis de diversos algoritmos para ilustrar las diferentes formas de particionar el espacio de representación de las variables predictoras (features).
De forma simultánea, se abordará el ajuste de hiperparámetros de cada familia de algoritmos con recomendaciones acerca del espacio de búsqueda óptima con el fin de seleccionar un modelo campeón para un conjunto de datos en particular.
Metodología
Aplicamos la metodología learning by doing utilizando notebooks y herramientas en la nube para manejo de grandes volúmenes de datos.
¿Por qué aprender Machine Learning?
Dominar el funcionamiento y aplicación de las principales familias de algoritmos de aprendizaje supervisado es fundamental para seleccionar el mejor modelo (champion model) ante una tarea específica de aprendizaje.
La partición de los datos (train, test y validation sets), las métricas de evaluación para clasificación y regresión, las simulaciones de validación cruzada y la selección de hiperparámetros óptimos son cruciales para resolver cualquier problema de aprendizaje automático de forma eficiente.
Objetivos de aprendizaje
- Sintetizar el funcionamiento de las familias de algoritmos de Árboles de Decisión para tareas de clasificación y regresión.
- Comprender las distintas formas de particionamiento de tablas de datos para tareas de regresión y clasificación en función del número de datos disponibles.
- Utilizar de forma adecuada las distintas métricas de evaluación de algoritmos de clasificación y regresión.
- Utilizar espacios de búsqueda lineales o exponenciales para localizar los hiperparámetros óptimos de un algoritmo evitando el sobreajuste (overfitting).