fbpx

Extracción de Datos

$69.99 Sin IVA

*Precio en dólares

Fecha: 08 al 12 de octubre del 2020 (jueves, viernes y lunes).
Horario: 7h00 a 9h00 (GTM-5: Bogotá, Lima, Quito).
Duración: 6 horas.

Categorías: ,
Resumen

En este curso, accede a los datos donde estos residen y luego aplica las mejores prácticas de extracción de datos, incluyendo el uso de esquemas, manejo de registros corruptos y código paralelizado. Al final de este módulo, extraerás datos de múltiples fuentes, utilizarás la inferencia de esquemas y aplicarás esquemas definidos por el usuario.

Metodología

Aplicamos la metodología learning by doing para el trabajo con herramientas digitales. Por medio del trabajo en notebooks e infraestructura cloud mediante la plataforma Databricks.

¿Por qué aprender Extracción de Datos?

Dentro del proceso ETL, la extracción de datos representa una parte muy importante. Conectarse a cualquier fuente de datos permite extender la cantidad de casos de uso en el mundo del Big Data y la Analítica Avanzada. Apache Spark provee APIs (PySpark y SparkSQL) que permiten fácilmente conectarse a distintas fuentes de datos estructuradas como SQL, NoSQL y Data Lakes.

Objetivos de aprendizaje
  1. Aprender cómo conectarse con distintas fuentes de datos desde Apache Spark.
  2. Aplicar esquemas a datos semi-estructurados y manejar registros corruptos.

Lecciones

  • Resumen del proceso de ETL
  • Conectarse a un Data Lake
  • Conectarse a una RDBMS
  • Aplicar esquemas a datos semi-estructurados
  • Manejo de registros corruptos
  • Carga de datos y puesta en producción

Instructor

MIT. Diego Montúfar

Co-fundador y Director Ejecutivo de handytec, empresa referente en Ecuador en ofrecer soluciones de Big Data Analytics. Ingeniero de Sistemas y Master of Information Technology por la Universidad de Melbourne, Australia. Especializado en Computación distribuida y Big Data Analytics. Diego tiene experiencia trabajando en la construcción de data pipelines sobre diversas plataformas on-prem y cloud como MSFT Azure, AWS y GCP utilizando tecnologías state of the art para industrias de Retail, Banca & Finanzas y Seguros. Ha participado en el diseño y puesta en marcha de proyectos de Analítica de Datos de alto impacto en los principales Bancos y Cooperativas de Ecuador. Diego es Certified Blockchain Expert y su área de especialización se enfoca en construir plataformas robustas de almacenamiento, procesamiento y análisis de información a gran escala.

Detalles importantes

  • Herramienta: Python en Databricks. No necesitas instalar ningún software en tu computadora
  • Conocimientos previos:
    • Lenguajes de programación (intermedio)
    • Bases de datos (intermedio)
  • Accede a los videos de las clases grabadas

También te recomendamos…

Ir arriba