Resumen
En este curso, aplica las mejores prácticas de transformación y carga de datos, tales como funciones definidas por el usuario, uniones de tablas eficientes y escritura de bases de datos paralelas. Al finalizar, aprenderás a transformar datos complejos con funciones personalizadas y a cargar en una base de datos de destino.
Metodología
Aplicamos la metodología “learning by doing” para el trabajo con herramientas digitales. Por medio del trabajo en notebooks e infraestructura cloud mediante la plataforma Databricks.
¿Por qué aprender sobre Transformaciones y Cargas?
Una de las tareas más complejas dentro de un Data Pipeline es la preparación y el procesamiento de datos. Estos datos suelen tener distintos tipos, formatos y tamaños. Apache Spark permite realizar operaciones sobre datasets de manera distribuida, es decir, aplicar transformaciones a los datos de manera eficiente y veloz, lo cual ayuda optimizar significativamente el tiempo en que un Ingeniero de Datos dedica a preparar la información para su posterior análisis.
Objetivos de aprendizaje
- Aprender algunas funciones y técnicas para realizar transformaciones con PySpark.
- Realizar cargas de los resultados (outputs) a distintos repositorios de información para su consumo.