Ingeniería de Datos con Spark

Aprende los fundamentos esenciales sobre el manejo de Apache Spark 3.0 y el trabajo en notebooks dentro de la plataforma de analítica unificada Databricks.

arrow

Carrera

Aprende y certifícate

Comienza con una introducción referente a las principales nociones del procesamiento de datos, los problemas que se resuelven, herramientas que se utilizan y los primeros pasos con el lenguaje de programación Python con PySpark y SparkSQL para ingeniería de datos.

Aprende a procesar distintos tipos de datos estructurados y no estructurados a través de procesos ETL (Extracción, Transformación y Carga) usando Apache Spark y distintas técnicas para tratar datos masivos provenientes de fuentes SQL, NoSQL y Data Lakes.

Con los conocimientos adquiridos ejecuta un proyecto final formulado por los instructores y desarrolla tus habilidades trabajando en un caso práctico.

Al finalizar esta carrera tendrás la capacidad de:

Crear data pipelines.

Procesar distintos tipos de datos provenientes de múltiples fuentes estructuradas y no estructuradas.

forma

TEMARIO: Ingeniería de Datos con Spark

Herramientas para Ingeniería de Datos

Herramientas para Ingeniería de Datos

Aprende los conceptos, casos de uso y herramientas que giran en torno a la Ingeniería de datos. Analiza los prinicipales problemas utilizando técnicas de procesamiento de datos masivos y heterogéneos.

Extracción de datos

Extracción de datos

Aplica las mejores prácticas de extracción de datos, incluyendo el uso de esquemas, manejo de registros corruptos y código paralelizado. También, extrae datos de múltiples fuentes y utiliza la inferencia de esquemas definidos por el usuario.

Transformaciones y cargas

Transformaciones y cargas

Aplica las mejores prácticas de transformación y cargas de datos, tales como funciones definidas por el usuario, uniones de tablas eficientes y escritura de bases de datos paralelas. Finalmente, transforma datos complejos con funciones personalizadas y carga en una base de datos de destino.

Puesta en producción

Puesta en producción

Automatiza las cargas de trabajo de Extracción, Transformación y Carga (ETL) mediante el procesamiento de flujos, estrategias de recuperación de jobs y estrategias de automatización como la integración con una API de REST. Finalmente, programa jobs ETL altamente optimizados y robustos, depurando problemas en el camino.

Proyecto

Proyecto

Se establece un proyecto alineado a la realidad de cada estudiante sobre algún caso de uso que les interese probar con apoyo del instructor durante el proceso de desarrollo.

Próximas fechas

¿No puedes asistir al próximo curso?

Revisa nuestro calendario y reserva tu cupo para la siguiente edición.

En este calendario encontrarás las fechas de inicio y cierre asignadas a cada carrera especializada, puedes interactuar y revisar la que más se ajuste a tu disponibilidad. Recuerda que las fechas están acorde a la planificación de este año.

Si ya decidiste qué carrera tomar, realiza tu compra con anticipación en nuestra tienda virtual o reserva tu cupo para una siguiente edición.

Reserva tu cupo
facebook
linkedin
youtube
whatsapp