Resumen
Adquiere todas las destrezas que se requieren dentro de la ingeniería de datos empleando las principales herramientas del mercado como Spark y Databricks. Adquiere esta especialización en Ingeniería de Datos para extraer, transformar y procesar datos a gran escala. En este sentido, te especializarás en:
Databricks Quickstart:
- El curso introduce la herramienta cloud Databricks QuickStart, los estudiantes aprenderán las funcionalidades principales del Workspace Databricks, incluyendo el almacenamiento de datos, aprovisionamiento de clústers, seguridades, jobs, monitoreo, entre otros.
- Además, revisaran la librería Koalas, misma que permite utilizar la API de Pandas para ejecutar pipelines de datos en modo distribuido sobre clústers de Spark con Python puro.
- Finalmente, conocerán cómo construir pipelines de datos en tiempo real con Spark Streaming y Kafka.
Ingeniería de Datos con Spark:
- Crear data pipelines.
- Procesar distintos tipos de datos provenientes de múltiples fuentes estructuradas y no estructuradas.
- Extracción de Datos incluyendo el uso de esquemas, manejo de registros corruptos y código paralelizado
- Trasformación y cargas con funciones definidas por el usuario, uniones de tablas eficientes y escritura de bases de datos paralelas.
- Puesta en producción mediante el procesamiento de flujos, estrategias de recuperación de jobs y estrategias de automatización como la integración con una API de REST.
Los cursos que se incluyen en este pack son los siguientes:
Valoraciones
No hay valoraciones aún.