Unidad 2: Preprocesamiento y Transformación de Datos¶
Esta unidad se enfoca en las técnicas esenciales de preprocesamiento de datos, un paso fundamental antes del modelado. Aprenderás a manejar datos faltantes, normalizar variables y detectar sesgos en tus datasets.
📚 Contenido de la Unidad¶
Práctica 4: Missing Data Detective¶
Identificación y tratamiento de datos faltantes
Aprende a detectar y manejar valores faltantes de manera profesional: - Identificación de patrones de datos faltantes - Técnicas de imputación (media, mediana, moda) - Imputación avanzada con algoritmos - Evaluación del impacto de datos faltantes - Estrategias de eliminación vs imputación
Práctica 5: Feature Scaling & Anti-Leakage Pipeline¶
Normalización de variables y prevención de fugas de datos
Domina las técnicas de escalado de características y evita errores comunes: - Feature Scaling: StandardScaler, MinMaxScaler, RobustScaler - Construcción de pipelines robustos - Prevención de data leakage - Train-test split correcto - Cross-validation sin fugas de información - Dataset: Ames Housing
Práctica 6: Detectar y Corregir Sesgo con Fairlearn¶
Análisis de equidad y corrección de sesgos algorítmicos
Aprende a identificar y mitigar sesgos en modelos de Machine Learning: - Detección de sesgos en datos y modelos - Métricas de equidad (disparate impact, demographic parity) - Uso de Fairlearn para análisis de fairness - Técnicas de mitigación de sesgo - Evaluación de trade-offs entre precisión y equidad - Implementación de modelos justos
🎯 Objetivos de Aprendizaje¶
Al completar esta unidad, serás capaz de:
- ✅ Identificar y tratar datos faltantes de manera efectiva
- ✅ Aplicar técnicas de normalización y escalado apropiadas
- ✅ Construir pipelines de preprocesamiento robustos
- ✅ Prevenir data leakage en proyectos de ML
- ✅ Detectar sesgos en datos y modelos
- ✅ Implementar técnicas de fairness en ML
- ✅ Evaluar modelos desde perspectivas de equidad
🛠️ Herramientas y Tecnologías¶
- Pandas: Manipulación de datos
- Scikit-learn: Escalado y pipelines
- Fairlearn: Análisis y mitigación de sesgos
- NumPy: Operaciones numéricas
- Matplotlib & Seaborn: Visualización
- Ames Housing Dataset: Dataset principal de práctica
⚠️ Conceptos Clave¶
- Data Leakage: Filtración de información del conjunto de test al entrenamiento
- Feature Scaling: Normalización de variables para mejorar el rendimiento de modelos
- Fairness: Equidad en predicciones para diferentes grupos demográficos
- Imputation: Técnicas para rellenar valores faltantes