fbpx

Transformaciones y Cargas

$69.99 Sin IVA

*Precio en dólares

Fecha: 13 al 15 de octubre del 2020 (martes, miércoles y jueves).
Horario: 7h00 a 9h00 (GTM-5: Bogotá, Lima, Quito).
Duración: 6 horas.

Categorías: ,
Resumen

En este curso, aplica las mejores prácticas de transformación y carga de datos, tales como funciones definidas por el usuario, uniones de tablas eficientes y escritura de bases de datos paralelas. Al finalizar,  aprenderás a transformar datos complejos con funciones personalizadas y a cargar en una base de datos de destino.

Metodología

Aplicamos la metodología “learning by doing” para el trabajo con herramientas digitales. Por medio del trabajo en notebooks e infraestructura cloud mediante la plataforma Databricks.

¿Por qué aprender sobre Transformaciones y Cargas?

Una de las tareas más complejas dentro de un Data Pipeline es la preparación y el procesamiento de datos. Estos datos suelen tener distintos tipos, formatos y tamaños. Apache Spark permite realizar operaciones sobre datasets de manera distribuida, es decir, aplicar transformaciones a los datos de manera eficiente y veloz, lo cual ayuda optimizar significativamente el tiempo en que un Ingeniero de Datos dedica a preparar la información para su posterior análisis.

Objetivos de aprendizaje
  1. Aprender algunas funciones y técnicas para realizar transformaciones con PySpark.
  2. Realizar cargas de los resultados (outputs) a distintos repositorios de información para su consumo.

Lecciones

  • Transformaciones comunes
  • User Defined Functions
  • UDFs avanzadas
  • Joins & Lookup Tables
  • Escrituras en Bases de Datos
  • Gestión de Tablas

Instructor

MIT. Diego Montúfar

Co-fundador y Director Ejecutivo de handytec, empresa referente en Ecuador en ofrecer soluciones de Big Data Analytics. Ingeniero de Sistemas y Master of Information Technology por la Universidad de Melbourne, Australia. Especializado en Computación distribuida y Big Data Analytics. Diego tiene experiencia trabajando en la construcción de data pipelines sobre diversas plataformas on-prem y cloud como MSFT Azure, AWS y GCP utilizando tecnologías state of the art para industrias de Retail, Banca & Finanzas y Seguros. Ha participado en el diseño y puesta en marcha de proyectos de Analítica de Datos de alto impacto en los principales Bancos y Cooperativas de Ecuador. Diego es Certified Blockchain Expert y su área de especialización se enfoca en construir plataformas robustas de almacenamiento, procesamiento y análisis de información a gran escala.

Detalles importantes

  • Herramienta: Python en Databricks. No necesitas instalar ningún software en tu computadora
  • Conocimientos previos:
    • Lenguajes de programación (intermedio)
    • Bases de datos (intermedio)
  • Accede a los videos de las clases grabadas

También te recomendamos…

Ir arriba