4 Proyectos brillantes para tu portafolio de Data Science

Cuando escuchaba la palabra portafolio, imaginaba una especie de cartera de mano que mi maestro de dibujo llevaba los lunes al iniciar su clase.

Por otro lado, estaba el icónico maletín de Vincent Vega (John Travolta), que abrió en una escena del filme ‘Pulp Fiction’ y cuyo contenido sigue siendo un mito, ¿cuál fue el brillante objeto que Vincent encontró en el portafolio? Quizás nunca lo sabremos.

Fotografía de Rinomagazine

¿Qué es un portafolio en Data Science?

Rachael Tatman, Científica de Datos y ‘Kaggle Grandmaster’, señala que un portafolio “es una colección completa de proyectos que muestran tu trabajo en Data Science”, indica además que el objetivo de tener uno, es resaltar tu conocimiento en un área específica de esta disciplina. 

Un portafolio bien diseñado, brinda credibilidad al perfil de un Data Scientist. Según Michael Galarnyk (2018): “además del beneficio de aprender realizando tus proyectos, un portafolio es importante ya que puede ayudarte a conseguir empleo”. 

Por lo tanto, en este artículo, incluiremos varias ideas sobre los proyectos que puedes empezar a desarrollar, cuáles no deberías incluir y otras recomendaciones para que tu portafolio llame la atención y puedas mostrar tus mejores habilidades. 

¿Qué proyectos incluir en tu portafolio? 

La recomendación es elegir proyectos que respondan a una pregunta de interés. Elige temáticas con las que tengas mayor afinidad, como por ejemplo los deportes, salud, economía, finanzas, marketing, agronomía, entre otros. 

A continuación, te mostramos 4 ideas de proyectos usando el lenguaje Python, que podrías incluir en tu portafolio profesional: 

1. Predicción del rating de libros

Fotografía de Nathália Rosa de Unsplash

Este dataset contiene un registro del rating o puntuación recibida para alrededor de 12 mil títulos, en la comunidad virtual de catalogación de libros ‘Goodreads’. Se incluyen variables como autor del libro, puntuación promedio, lenguaje en el cual está escrito, número de páginas y cantidad total de ‘reviews’ de sus lectores.

Las técnicas que permitirá demostrar: Exploración de datos, Limpieza de datos, Visualización, Preprocesamiento y Machine Learning (regresión lineal para la predicción del rating). 

Librerías y/o paquetes: Pandas, Numpy, Matplotlib, Seaborn, Sklearn. 

Conjunto de datos: Predict Book Rating with Linear Regression 

2. Predicción de enfermedades cardíacas

Fotografía de Neonbrand de Unsplash

El conjunto de datos proporciona información de más de 4000 registros de pacientes y 15 variables a analizar como: género, edad, índice de masa corporal, etc. Estos datos provienen de un estudio cardiovascular en los residentes de la ciudad de Framingham, Massachusetts.

El objetivo de este problema es predecir si el paciente tiene o no un riesgo de sufrir una enfermedad coronaria. El dataset está disponible públicamente en el sitio web de Kaggle. 

Las técnicas que permitirá demostrar: Limpieza de datos, Exploración de datos, Preprocesamiento y Machine Learning (regresión logística para la predicción de la variable binaria ‘riesgo de desarrollar la enfermedad’). 

Librerías / paquetes: Pandas, Numpy, Matplotlib, Seaborn, Scikit-learn.

Conjunto de datos: Heart Disease Prediction using logistic regression.

3. Análisis de sentimientos en Redes Sociales 

Imagen tomada de: Kdnuggets

El análisis de sentimientos resulta siempre interesante pues permite medir las interacciones de los usuarios de una plataforma ante un determinado evento, como en el caso del estreno de una película, los campeonatos de fútbol, un lanzamiento musical o pronunciamientos políticos. 

Por ejemplo, podrías analizar este conjunto de datos que contiene más de un millón y medio de tweets para predecir las posibles reacciones de los usuarios a partir del texto colocado en la red social. 

Se compone de 6 variables como fecha de publicación, usuario y texto del tweet. La variable objetivo es la reacción de los usuarios y esta puede etiquetarse como positiva, negativa o neutral. 

El dataset fue construido a partir de la API de Twitter, sin embargo, puedes encontrarlo listo para su descarga en la plataforma Kaggle

Librerías: Pandas, Matplolib, Sklearn, Keras, Nltk. 

Las técnicas que permitirá demostrar: Limpieza de datos, Visualización, Preprocesamiento (remoción de stopwords y caracteres especiales en el texto). Entrenamiento de un modelo para la predicción de sentimientos. 

Conjunto de datos: Twitter Sentiment Analysis using Python.

4. Detección de fraude en tarjetas de crédito 

Fotografía de Getty Images

A través de este proyecto analizarás transacciones realizadas en un período de 2 días por parte de titulares de tarjetas de crédito en Europa. El conjunto de datos se compone de 284 mil movimientos de los cuales un 0.17% fueron fraudulentos.

Se analizan 30 variables numéricas, entre ellas el tiempo que transcurre desde la primera transacción, así como su monto. El objetivo del proyecto es construir varios modelos para predecir si una transacción con tarjeta de crédito es fraudulenta o no lo es. 

Librerías: Pandas, Numpy, Scipy, Matplolib, Seaborn, Scikit-learn. 

Las técnicas que permitirá demostrar: Limpieza de datos, Exploración de Datos, Visualización. Entrenamiento de modelos de Machine Learning como: Regresión Logística, Support Vector Classifier, Random Forest. 

Conjunto de datos: Detecting Fraud with Random Forest

¿Qué proyectos no incluir en tu portafolio? 

Es importante elegir proyectos que te hagan diferenciar de otros. Como señala Jeremie Harris (2021), elegir proyectos como Titanic para predecir la supervivencia de los pasajeros, o el conjunto de datos Iris para la clasificación de tipos de flores, son proyectos perfectos al dar nuestros primeros pasos; pero definitivamente no deberías utilizarlos como parte de tu portafolio profesional. 

Recomendaciones finales 

Puedes tomar estos proyectos como una guía, pero sin duda puedes elegir otros que se adecúen a tus intereses profesionales o gustos personales.

Desarrollar tu portafolio no será una tarea sencilla pues necesitarás mucho esfuerzo e investigación. Sin embargo, te invitamos a elegir el primer proyecto para tu portafolio de Data Science y dedicarle todo tu esfuerzo, pues sin duda ¡será el escalón que te lleve al siguiente nivel! 

Fuentes de consulta: 

  • Galarnyk, Michael (2018). How to build a Data Science Portfolio. Towards Data Science. 
  • Harris, Jeremie (2021). The 4 fastest ways not to get hired as a Data Scientist. Towards Data Science. Recuperado de: https://towardsdatascience.com/the-4-fastest-ways-not-to-get-hired-as-a-data-scientist-565b42bd011e 
  • Tatman, Rachael (2018). Data Science Portfolio Tips. Recuperado de: https://www.kaggle.com/rtatman/data-science-portfolio-tips 

Ahora podrás aprender sobre las diferentes etapas dentro de un proyecto de data analytics: manipulación, limpieza, modelado, análisis y visualización de datos con las herramientas más actuales del mercado en nuestra nueva carrera: Analista de Datos. Por el contrario, si deseas especializarte y aprender cómo entrenar modelos de aprendizaje automático (Machine Learning) implementando código Python y PySpark en el ciclo de vida de modelos de predicción, segmentación, clasificación y recomendación con la herramienta del momento: Apache Spark, entonces el curso de Machine Learning con Spark ¡te está esperando!



Autora: Viviana Márquez

Analista de Datos. Investigadora del Instituto de Estadística y Demografía (Facultad CC. Económicas UNC, Argentina). Especialista en análisis de datos, Business Intelligence e investigación estadística. Contadora-Auditora por la Universidad Nacional de Chimborazo (Ecuador) y Máster en Estadística Aplicada por la Universidad Nacional de Córdoba (Argentina).

Deja un comentario