Resumen
En este curso, accede a los datos donde estos residen y luego aplica las mejores prácticas de extracción de datos, incluyendo el uso de esquemas, manejo de registros corruptos y código paralelizado. Al final de este módulo, extraerás datos de múltiples fuentes, utilizarás la inferencia de esquemas y aplicarás esquemas definidos por el usuario.
Metodología
Aplicamos la metodología learning by doing para el trabajo con herramientas digitales. Por medio del trabajo en notebooks e infraestructura cloud mediante la plataforma Databricks.
¿Por qué aprender Extracción de Datos?
Dentro del proceso ETL, la extracción de datos representa una parte muy importante. Conectarse a cualquier fuente de datos permite extender la cantidad de casos de uso en el mundo del Big Data y la Analítica Avanzada. Apache Spark provee APIs (PySpark y SparkSQL) que permiten fácilmente conectarse a distintas fuentes de datos estructuradas como SQL, NoSQL y Data Lakes.
Objetivos de aprendizaje
- Aprender cómo conectarse con distintas fuentes de datos desde Apache Spark.
- Aplicar esquemas a datos semi-estructurados y manejar registros corruptos.