Resumen
En este curso, optimiza y automatiza las cargas de trabajo de Extracción, Transformación y Carga (ETL) mediante el procesamiento de flujos, estrategias de recuperación de jobs y estrategias de automatización como la integración con una API de REST. Al final de este curso programará jobs ETL altamente optimizados y robustos, depurando problemas en el camino.
Metodología
Aplicamos la metodología “learning by doing” para el trabajo con herramientas digitales. Por medio del trabajo en notebooks e infraestructura cloud mediante la plataforma Databricks.
¿Por qué aprender sobre la Puesta en Producción?
Realizar procesos manuales dentro de un Data Pipeline o depender de la interacción de un humano en algunos puntos, suele generar cuellos de botella, está sujeto a errores e imposibilita la replicación y recuperación automática de los flujos de trabajo. Por ello, es fundamental contar con herramientas que permitan automatizar el proceso ETL de punta a punta, llevar un control y monitoreo de los flujos de trabajo y ser capaces de recuperarse ante algún fallo oportunamente.
Objetivos de aprendizaje
- Aprender sobre las herramientas que interactúan con Apache Spark para calendarizar jobs ETLs.
- Poner en producción flujos de trabajo a través de APIs.
- Aplicar las mejores prácticas para optimizar procesos ETL.