Comienza con una introducción referente a las principales nociones del procesamiento de datos, los problemas que se resuelven, herramientas que se utilizan y los primeros pasos con el lenguaje de programación Python con PySpark y SparkSQL para ingeniería de datos.
Aprende a procesar distintos tipos de datos estructurados y no estructurados a través de procesos ETL (Extracción, Transformación y Carga) usando Apache Spark y distintas técnicas para tratar datos masivos provenientes de fuentes SQL, NoSQL y Data Lakes.
Con los conocimientos adquiridos ejecuta un proyecto final formulado por los instructores y desarrolla tus habilidades trabajando en un caso práctico.
Al finalizar este curso tendrás la capacidad de:
Crear data pipelines. | |
Procesar distintos tipos de datos provenientes de múltiples fuentes estructuradas y no estructuradas. |
2023
Online en vivo
35 horas distribuidas
en 8 semanas
martes y jueves: 18h30 a 20h30 (GTM-5 Quito, Lima y Bogotá)
Aprende los conceptos, casos de uso y herramientas que giran en torno a la Ingeniería de datos. Analiza los principales problemas utilizando técnicas de procesamiento de datos masivos y heterogéneos.
Aplica las mejores prácticas de extracción de datos, incluyendo el uso de esquemas, manejo de registros corruptos y código paralelizado. También, extrae datos de múltiples fuentes y utiliza la inferencia de esquemas definidos por el usuario.
Aplica las mejores prácticas de transformación y cargas de datos, tales como funciones definidas por el usuario, uniones de tablas eficientes y escritura de bases de datos paralelas. Finalmente, transforma datos complejos con funciones personalizadas y carga en una base de datos de destino.
Automatiza las cargas de trabajo de Extracción, Transformación y Carga (ETL) mediante el procesamiento de flujos, estrategias de recuperación de jobs y estrategias de automatización como la integración con una API de REST. Finalmente, programa jobs ETL altamente optimizados y robustos, depurando problemas en el camino.
Se establece un proyecto alineado a la realidad de cada estudiante sobre algún caso de uso que les interese probar con apoyo del instructor durante el proceso de desarrollo.
Analista de Datos
Recopila, organiza y estudia los datos para proporcionar soluciones desde una visión de negocio. Aplica herramientas de análisis y visualización de datos para la toma de decisiones y presentación de resultados.
Científico de Datos
Emplea datos para identificar y resolver problemas de negocio complejos. Tiene un enfoque interdisciplinario, utilizando técnicas y conocimientos de diversas disciplinas científicas e informáticas.
Ingeniero de Datos
Prepara, refina y disponibiliza datasets de calidad y los integra en la arquitectura empresarial, creando flujos automatizados de datos que provienen de fuentes estructuradas y no estructuradas.
Custodio de Datos
Define y maneja el uso de datos, ejecutando las políticas, criterios y procesos para asegurar la calidad, seguridad e integridad de los datos de la organización, de principio a fin.
El contenido es bastante completo y aborda muchos temas. La temática que más me gustó fue lo relacionado a ETL.
Son excelentes maestros y profesionales. Todo el contenido fue muy bien explicado; personalmente, no tenía muchos conocimientos previos, pero el apoyo y seguimiento de mi instructor me ayudaron a poder realizar actividades que, en un inicio, no las podía hacer.
Se aprende muchísimo sobre todo el proceso de ETL de la data, el cual es muy importante para poder después manejar la misma.