Resumen
Identificaremos los fundamentos esenciales sobre el manejo de Apache Spark 3.0 y el trabajo en notebooks dentro de la plataforma de Analítica Unificada Databricks.
Descripción global
En este curso de especialización aprende los fundamentos esenciales sobre el manejo de Apache Spark 3.0 y el trabajo en notebooks dentro de la plataforma de analítica unificada Databricks. Asimismo, revisaremos en conjunto una introducción referente a las principales nociones del procesamiento de datos, los problemas que se resuelven, herramientas que se utilizan y los primeros pasos con el lenguaje de programación Python con PySpark y SparkSQL para, ingeniería de datos.
Aprende a procesar distintos tipos de datos estructurados y no estructurados a través de procesos ETL (Extracción, Transformación y Carga) usando Apache Spark y distintas técnicas para tratar datos masivos provenientes de fuentes SQL, NoSQL y Data Lakes.
Con los conocimientos adquiridos ejecuta un proyecto final formulado por los instructores y desarrolla tus habilidades trabajando en un caso práctico.
Al finalizar esta carrera tendrás la capacidad de crear data pipelines, procesar distintos tipos de datos provenientes de múltiples fuentes estructuradas y no estructuradas.
Beneficios
-
Metodología innovadora de enseñanza con enfoque práctico y dinámico (Learning by doing).
-
Recibe una certificación Open Badge validada mediante tecnología blockchain y verificada internacionalmente.
-
Camino de aprendizaje enfocado en una de las profesiones con mayor demanda laboral en la actualidad.
-
Emplea herramientas en la nube sin la necesidad de instalar software en tu ordenador.
-
Implementa algoritmos por medio de casos de uso enfocados en: Análisis de Logs, ClickStream y Sensor Data, Ventas en Retail, Financial y Stock Data, entre otros.
-
Trabaja con grandes volúmenes de datos, utilizando datasets en formatos variados: csv, json, parquet, entre otros.
-
Trabaja con fuentes de datos SQL, NoSQL y Data Lakes.
-
Revisa el contenido de las sesiones al acceder a las grabaciones y materiales (presentaciones, notebooks, datasets, entre otros).
-
Interactúa de forma dinámica con los instructores, realizando consultas a través de un canal de comunicación privado en Slack.