Resumen
El curso introduce la herramienta cloud Databricks QuickStart, los estudiantes aprenderán las funcionalidades principales del Workspace Databricks, incluyendo el almacenamiento de datos, aprovisionamiento de clústers, seguridades, jobs, monitoreo, entre otros.
Además, revisaran la librería Koalas, misma que permite utilizar la API de Pandas para ejecutar pipelines de datos en modo distribuido sobre clústers de Spark con Python puro. Finalmente, conocerán cómo construir pipelines de datos en tiempo real con Spark Streaming y Kafka.
Beneficios
-
Metodología innovadora de enseñanza con enfoque práctico y dinámico (Learning by doing).
-
Recibe una certificación open badge validada mediante tecnología blockchain.
-
Revisa el contenido de las sesiones al acceder a las grabaciones y materiales.
-
Interactúa de forma dinámica con los instructores y otros estudiantes, realizando consultas a través de un canal de comunicación privado.
- Forma parte de nuestra comunidad de profesionales en Datos que te ayudarán en tu camino de aprendizaje.
-
Emplea herramientas en la nube sin la necesidad de instalar software en tu ordenador.
Perfil de Salida
-
Disponer de una visión completa de los componentes y funcionalidades de la plataforma Databricks.
-
Comprender la importancia del procesamiento distribuido en la nube y su uso en el mundo de los datos.
-
Escribir código empleado notebooks de trabajo.
Valoraciones
No hay valoraciones aún.