Machine Learning con Spark

$390.00

Inscripciones cerradas

Fecha: lunes 5 de septiembre al miércoles 28 de septiembre del 2022
Horarios: Clases martes y jueves en horario de 18h30 a 20h30 (GTM-5: Bogotá, Lima, Quito).
Duración: 35 horas (30 horas de clases sincrónicas y 5 asincrónicas.

Resumen

En este curso de especialización, aprende cómo entrenar modelos de aprendizaje automático (Machine Learning) a partir de bases de datos gigantes. Para ello, emplea las capacidades de distribución de procesos de Apache Spark 3.0 dentro de la plataforma de analítica unificada Databricks.

Especialízate en el ámbito del Machine Learning, revisa las principales nociones de la temática implementando código Python y PySpark. También, trabaja en el ciclo de vida de modelos de predicción, segmentación, clasificación y recomendación por medio de técnicas de ingeniería de variables, análisis exploratorio de datos, búsqueda de hiperparámetros, validación cruzada, pipelines y métricas de evaluación que permite estimar el grado de confianza de los modelos previo a la puesta en producción.

Finalmente, ejecuta un proyecto en donde pondrás en práctica los conocimientos adquiridos utilizando datos de alta dimensionalidad.

Beneficios

  • Metodología innovadora de enseñanza con enfoque práctico y dinámico (Learning by doing).
  • Recibe una certificación Open Badge validada mediante tecnología blockchain y verificable internacionalmente.
  • Camino de aprendizaje enfocado en una de las profesiones con mayor demanda laboral en la actualidad.
  • Emplea herramientas en la nube sin la necesidad de instalar software en tu ordenador.
  • Trabaja con grandes volúmenes de datos, utilizando datasets reales.
  • Revisa el contenido de las sesiones al acceder a las grabaciones y materiales.
  • Interactúa de forma dinámica con los instructores, realizando consultas a través de un canal de comunicación privado.

Perfil de Salida

Al finalizar este curso tendrás la capacidad de:

  • Comprender los conceptos relacionados al entrenamiento de modelos Machine Learning.
  • Utilizar herramientas de ingeniería de variables incluidas en Spark.
  • Interpretar métricas de evaluación para encontrar un modelo campeón.
  • Entrenar modelos con datos de alta dimensionalidad por medio de Spark.
  • Buscar los hiperparámetros óptimos para minimizar el error de modelos predictivos.
  • Versionar los modelos entrenados por medio de MLflow.

Lecciones

  • Herramientas para Ciencia de Datos
    Se abordará el uso y manejo de las plataformas de trabajo y se analizarán los principales conceptos asociados al campo del Machine Learning.
  • Pre- procesamiento e ingeniería de variables
    Empleando diversas fuentes de información, se implementarán procesos de inspección y limpieza de datos. Se aplicará el análisis exploratorio de datos (EDA) mediante el uso de consultas interactivas y métodos de visualización nativas de Databricks. Empleando pipelines de MLlib, se analizarán las principales técnicas de transformación de datos para que estos puedan ser consumidos por los algoritmos de aprendizaje automático.
  • Machine Learning con Spark
    Trabajaremos en el  entrenamiento, ajuste de hiperparámetros y métricas de evaluación de los algoritmos de Machine Learning utilizando PySpark y bases de datos de alta dimensionalidad. Observaremos los beneficios de trabajar con plataformas distribuidas en la nube con énfasis en la gobernanza y versionamiento de modelos utilizando MLflow.

Instructor

Irina Ávalos

imagen

  • Científico de Datos en handytec. Irina es Máster en Sistemas de la Información, mención en Inteligencia de Negocios y Analítica de Datos Masivos por la Universidad de Nebrija, España. Ha trabajado como especialista en proyectos de Transformación Digital, Analítica Avanzada, Gobernanza de Información y Estrategia de Datos en diferentes sectores como la Banca, Seguros y Retail.
  • Ha implementado frameworks para la ejecución de proyectos de analítica avanzada dentro de las industrias mencionadas.
  • Su experiencia actual se basa en el desarrollo de modelos de aprendizaje automático con datos masivos y análisis de procesamiento de lenguaje natural sobre plataformas en la nube, implementando soluciones de punta a punta.

Requerimientos técnicos

El participante deberá contar con:

  • Un navegador Chrome o Firefox
  • Acceso a internet

Requisitos de hardware y software:

  • Un equipo con al menos: 4GB de RAM y 2 CPUs
  • Espacio libre en disco de al menos: 20GB
  • Sistema operativo Windows, MacOS o Linux

Detalles importantes

  • Modalidad: Masterclass online en vivo.
  • Dirigido a: Profesionales con formación en carreras: Informática, Inteligencia de Negocios, Ingenierías, Análisis de datos y áreas afines.

Preguntas frecuentes

Si tienes dudas, siempre puedes revisar nuestra sección de preguntas frecuentes.

También te recomendamos…