fbpx

Herramientas de Ingeniería de Datos

$69.99 Sin IVA

*Precio en dólares

Fecha: 05 al 07 de octubre del 2020 (lunes, martes y miércoles)
Horario: 7h00 a 9h00 (GTM-5: Bogotá, Lima, Quito).
Duración: 6 horas.

Categorías: ,
Resumen

En curso revisa los conceptos, casos de uso y herramientas que giran en torno a la Ingeniería de datos. Empieza con una revisión general de los problemas que se deben resolver utilizando técnicas de procesamiento de datos masivos y heterogéneos, además la necesidad de contar con una plataforma de analítica unificada que permita trabajar sobre grandes conjuntos de datos.

Haz una introducción rápida al lenguaje de programación Python y  pon en práctica algunas técnicas para el procesamiento de grandes datasets usando computación paralela con Dask en Python y Koalas, una API de Pandas sobre Apache Spark.

Finalmente, aprende sobre al uso de las APIs  PySpark y SparkSQL, que serán de gran utilidad para realizar distintas tareas de Ingeniería de Datos sobre Apache Spark.

Metodología

Aplicamos la metodología “learning by doing” para el trabajo con herramientas digitales. Por medio del trabajo en notebooks e infraestructura cloud mediante la plataforma Databricks.

¿Por qué aprender Ingeniería de Datos?

Utilizar técnicas de almacenamiento y procesamiento de grandes conjuntos de datos, es una tarea clave dentro de un data pipeline. Se conoce que cerca del 80% del tiempo en el ciclo de vida de analítica de datos se lo dedica a realizar tareas de preparación y tratamiento de datos, es la llamada Ingeniería de Datos y apenas el 20% en modelamiento usando Machine Learning o IA.

Contar con las herramientas adecuadas para acelerar estos tiempos (de procesamiento y de consulta) y llevar a cabo las diversas tareas dentro de un data pipeline, es de gran importancia con el fin de agregar valor al negocio de manera eficiente y veloz.

Objetivos de aprendizaje
  1. Entender los problemas que se resuelven dentro de la Ingeniería de Datos.
  2. Utilizar herramientas y técnicas para el procesamientos de distintos tipos y volúmenes de datos.
  3. Ganar experiencia en el uso de PySpark y Spark SQL para el procesamiento distribuido de datos sobre Apache Spark.

Lecciones

  • ¿Qué es Data Engineering?

  • Analítica  Unificada con Databricks

  • Notebooks

  • Tipos de Datos: JSON, CSV, Parquet, ORC, AVRO

  • Tipos de Bases de datos: SQL, NoSQL, Data Lakes

  • Python crash course

  • Computación paralela con Dask en Python

  • Koalas: Pandas API sobre Apache Spark

  • PySpark crash course

  • SparkSQL crash course

Instructor

MIT. Diego Montúfar

Co-fundador y Director Ejecutivo de handytec, empresa referente en Ecuador en ofrecer soluciones de Big Data Analytics. Ingeniero de Sistemas y Master of Information Technology por la Universidad de Melbourne, Australia. Especializado en Computación distribuida y Big Data Analytics. Diego tiene experiencia trabajando en la construcción de data pipelines sobre diversas plataformas on-prem y cloud como MSFT Azure, AWS y GCP utilizando tecnologías state of the art para industrias de Retail, Banca & Finanzas y Seguros. Ha participado en el diseño y puesta en marcha de proyectos de Analítica de Datos de alto impacto en los principales Bancos y Cooperativas de Ecuador. Diego es Certified Blockchain Expert y su área de especialización se enfoca en construir plataformas robustas de almacenamiento, procesamiento y análisis de información a gran escala.

Detalles importantes

  • Herramienta: Python en Databricks. No necesitas instalar ningún software en tu computadora
  • Conocimientos previos:
    • Lenguajes de programación (intermedio)
    • Bases de datos (intermedio)
  • Accede a los videos de las clases grabadas

También te recomendamos…

Ir arriba