¡Bienvenidos al Programa Ingeniería de Datos con Spark!
En este programa formativo, identificaremos los fundamentos esenciales sobre el manejo de Apache Spark 3.0 y el trabajo en notebooks dentro de la plataforma de Analítica Unificada Databricks.
Asimismo, revisaremos en conjunto una introducción referente a las principales nociones del procesamiento de datos, los problemas que se resuelven, herramientas que se utilizan y los primeros pasos con el lenguaje de programación Python con PySpark y SparkSQL para ingeniería de datos.
Alrededor de eso, aprenderás a usar distintos tipos de datos estructurados y no estructurados a través de procesos ETL (Extracción, Transformación y Carga) manejando Apache Spark y distintas técnicas para tratar datos masivos provenientes de fuentes SQL, NoSQL y Data Lakes.
En este curso tendrás un entendimiento suficiente para trabajar en proyectos de Ingeniería de Datos, aprenderás a desarrollar tus habilidades bajo la metodología Learning-by-doing, la misma que propone un aprendizaje dinámico e interactivo.
¡Empecemos!
A continuación, da clic en la primera lección Herramientas para Ingeniería de Datos para comenzar con el curso.