Ingeniería de Datos con Spark

$600.00

*Precio en dólares.

¡Inscripciones abiertas! 

Inicia: 3 de julio 2023.
Horarios: Clases martes y jueves en horario de 19h30 a 21h30 (GTM-5: ECU, CO, PE) y de 18h30 a 20h30 MX.
Duración: 30 horas.

Resumen

Identificaremos los fundamentos esenciales sobre el manejo de Apache Spark 3.0 y el trabajo en notebooks dentro de la plataforma de Analítica Unificada Databricks.

Descripción global

En este curso de especialización aprende los fundamentos esenciales sobre el manejo de Apache Spark 3.0 y el trabajo en notebooks dentro de la plataforma de analítica unificada Databricks. Asimismo, revisaremos en conjunto una introducción referente a las principales nociones del procesamiento de datos, los problemas que se resuelven, herramientas que se utilizan y los primeros pasos con el lenguaje de programación Python con PySpark y SparkSQL para, ingeniería de datos.

Aprende a procesar distintos tipos de datos estructurados y no estructurados a través de procesos ETL (Extracción, Transformación y Carga) usando Apache Spark y distintas técnicas para tratar datos masivos provenientes de fuentes SQL, NoSQL y Data Lakes.

Con los conocimientos adquiridos ejecuta un proyecto final formulado por los instructores y desarrolla tus habilidades trabajando en un caso práctico.

Al finalizar esta carrera tendrás la capacidad de crear data pipelines, procesar distintos tipos de datos provenientes de múltiples fuentes estructuradas y no estructuradas.

Beneficios

  • Metodología innovadora de enseñanza con enfoque práctico y dinámico (Learning by doing).

  • Recibe una certificación Open Badge validada mediante tecnología blockchain y verificada internacionalmente.

  • Camino de aprendizaje enfocado en una de las profesiones con mayor demanda laboral en la actualidad.

  • Emplea herramientas en la nube sin la necesidad de instalar software en tu ordenador.

  • Implementa algoritmos por medio de casos de uso enfocados en: Análisis de Logs, ClickStream y Sensor Data, Ventas en Retail, Financial y Stock Data, entre otros.

  • Trabaja con grandes volúmenes de datos, utilizando datasets en formatos variados: csv, json, parquet, entre otros.

  • Trabaja con fuentes de datos SQL, NoSQL y Data Lakes.

  • Revisa el contenido de las sesiones al acceder a las grabaciones y materiales (presentaciones, notebooks, datasets, entre otros).

  • Interactúa de forma dinámica con los instructores, realizando consultas a través de un canal de comunicación privado en Slack.

Lecciones del Curso

  • Herramientas para Ingeniería de Datos
    Se revisarán los conceptos, casos de uso y herramientas que giran en torno a la Ingeniería de datos. Empezamos con una revisión general de los problemas que se deben resolver utilizando técnicas de procesamiento de datos masivos y heterogéneos. También, analizaremos la importancia de contar con una plataforma de analítica unificada que permita trabajar sobre grandes conjuntos de datos.
  • Extracción de datos
    En este curso, los ingenieros de datos accederán a los datos en dónde estos residen y luego aplicarán las mejores prácticas de extracción de datos, incluyendo el uso de esquemas, manejo de registros corruptos y código paralelizado. Al final de este módulo, se extraerán datos de múltiples fuentes, se utilizará la inferencia de esquemas y se aplicarán esquemas definidos por el usuario.
  • Transformaciones y cargas
    En este curso, los Ingenieros de Datos aplicarán las mejores prácticas de transformación y cargas de datos, tales como funciones definidas por el usuario, uniones de tablas eficientes y escritura de bases de datos paralelas. Al final de este módulo, se transformarán datos complejos con funciones personalizadas y se cargarán en una base de datos de destino.
  • Puesta en producción
    En este curso los Ingenieros de Datos optimizarán y automatizarán las cargas de trabajo de Extracción, Transformación y Carga (ETL) mediante el procesamiento de flujos, estrategias de recuperación de jobs y estrategias de automatización como la integración con una API de REST. Al final de este curso programarán jobs ETL altamente optimizados y robustos, depurando problemas en el camino.
  • Proyecto
    Trabajaremos con datos reales, de alta dimensionalidad, para poner en práctica los conceptos aprendidos durante los módulos anteriores.

Revisa el Curso

Instructor

MIT. Diego Montúfar

Co-fundador y Director Ejecutivo de handytec, empresa referente en Ecuador en ofrecer soluciones de Big Data Analytics. Ingeniero de Sistemas y Master of Information Technology por la Universidad de Melbourne, Australia. Especializado en Computación distribuida y Big Data Analytics. Diego tiene experiencia trabajando en la construcción de data pipelines sobre diversas plataformas on-prem y cloud como MSFT Azure, AWS y GCP utilizando tecnologías state of the art para industrias de Retail, Banca & Finanzas y Seguros. Ha participado en el diseño y puesta en marcha de proyectos de Analítica de Datos de alto impacto en los principales Bancos y Cooperativas de Ecuador. Diego es Certified Blockchain Expert y su área de especialización se enfoca en construir plataformas robustas de almacenamiento, procesamiento y análisis de información a gran escala.

Detalles importantes

  • Modalidad: Masterclass en vivo
  • Prerrequisitos: Se sugiere profesionales con formación en Informática, Telecomunicaciones, Software, Ingenierías, Inteligencia de Negocios, Bases de Datos e Ingenieros de Datos

Preguntas frecuentes

Si tienes dudas, siempre puedes revisar nuestra sección de preguntas frecuentes.

También te recomendamos…