Ingeniería de datos con Spark

Aprende los fundamentos esenciales sobre el manejo de Apache Spark 3.0 y el trabajo en notebooks dentro de la plataforma de analítica unificada Databricks.

Curso

Aprende y certifícate

Comienza con una introducción referente a las principales nociones del procesamiento de datos, los problemas que se resuelven, herramientas que se utilizan y los primeros pasos con el lenguaje de programación Python con PySpark y SparkSQL para ingeniería de datos.

Aprende a procesar distintos tipos de datos estructurados y no estructurados a través de procesos ETL (Extracción, Transformación y Carga) usando Apache Spark y distintas técnicas para tratar datos masivos provenientes de fuentes SQL, NoSQL y Data Lakes.

Con los conocimientos adquiridos ejecuta un proyecto final formulado por los instructores y desarrolla tus habilidades trabajando en un caso práctico.

Al finalizar este curso tendrás la capacidad de:

Crear data pipelines.
Procesar distintos tipos de datos provenientes de múltiples fuentes estructuradas y no estructuradas.

INICIO:

2023

MODALIDAD:

Online en vivo

DURACIÓN:

35 horas distribuidas
en 8 semanas

HORARIO:

martes y jueves: 18h30 a 20h30 (GTM-5 Quito, Lima y Bogotá)

BENEFICIOS:

  • Clases virtuales 100% en vivo.
  • Certificado open badge verificable internacionalmente.
  • Mentor asignado, que te guiará durante todo tu aprendizaje.
  • Clases grabadas para que puedas revisarlas en cualquier momento.
  • Un proyecto final para aprender con casos reales.
Inscríbete
Consulta precios en tu moneda local, descarga nuestro brochure
forma

TEMARIO: Ingeniería de Datos

Herramientas para Ingeniería de Datos
Herramientas para Ingeniería de Datos

Aprende los conceptos, casos de uso y herramientas que giran en torno a la Ingeniería de datos. Analiza los principales problemas utilizando técnicas de procesamiento de datos masivos y heterogéneos.

Extracción de datos
Extracción de datos

Aplica las mejores prácticas de extracción de datos, incluyendo el uso de esquemas, manejo de registros corruptos y código paralelizado. También, extrae datos de múltiples fuentes y utiliza la inferencia de esquemas definidos por el usuario.

Transformaciones y cargas
Transformaciones y cargas

Aplica las mejores prácticas de transformación y cargas de datos, tales como funciones definidas por el usuario, uniones de tablas eficientes y escritura de bases de datos paralelas. Finalmente, transforma datos complejos con funciones personalizadas y carga en una base de datos de destino.

Puesta en producción
Puesta en producción

Automatiza las cargas de trabajo de Extracción, Transformación y Carga (ETL) mediante el procesamiento de flujos, estrategias de recuperación de jobs y estrategias de automatización como la integración con una API de REST. Finalmente, programa jobs ETL altamente optimizados y robustos, depurando problemas en el camino.

Proyecto
Proyecto

Se establece un proyecto alineado a la realidad de cada estudiante sobre algún caso de uso que les interese probar con apoyo del instructor durante el proceso de desarrollo.

forma 2
Ruta de aprendizaje
Infografía de los perfiles con Forecasting
forma
Cualidades de cada perfil
Certificado Open bagde

Analista de Datos

Recopila, organiza y estudia los datos para proporcionar soluciones desde una visión de negocio. Aplica herramientas de análisis y visualización de datos para la toma de decisiones y presentación de resultados.

Metodología Learning by doing

Científico de Datos

Emplea datos para identificar y resolver problemas de negocio complejos. Tiene un enfoque interdisciplinario, utilizando técnicas y conocimientos de diversas disciplinas científicas e informáticas.

Enfoque endatos masivos

Ingeniero de Datos

Prepara, refina y disponibiliza datasets de calidad y los integra en la arquitectura empresarial, creando flujos automatizados de datos que provienen de fuentes estructuradas y no estructuradas.

Enfoque endatos masivos

Custodio de Datos

Define y maneja el uso de datos, ejecutando las políticas, criterios y procesos para asegurar la calidad, seguridad e integridad de los datos de la organización, de principio a fin.

Comunidad databits
comillas
comillas
Freddy Duque – Semi Senior Software Developer

El contenido es bastante completo y aborda muchos temas. La temática que más me gustó fue lo relacionado a ETL.

Son excelentes maestros y profesionales. Todo el contenido fue muy bien explicado; personalmente, no tenía muchos conocimientos previos, pero el apoyo y seguimiento de mi instructor me ayudaron a poder realizar actividades que, en un inicio, no las podía hacer.

Se aprende muchísimo sobre todo el proceso de ETL de la data, el cual es muy importante para poder después manejar la misma.

comillas
facebook
linkedin
youtube
instagram
tiktok