📌 Modelo de Regresión Lineal Híbrido con Vecinos Más Cercanos
📖 Descripción
La propuesta que se presenta en este modelo híbrido de regresión lineal con ajuste basado en vecinos más cercanos (KNN) surge de la observación de que, en un modelo de regresión lineal, la predicción obtenida tiende a tener un error debido a la dispersión natural de los datos alrededor de la línea de regresión. En lugar de aceptar la predicción directamente, se implementa una segunda fase que ajusta el resultado utilizando la técnica de vecinos más cercanos comparando contra los valores reales con que se cuente, lo anterior como parte de una optimización adicional para seleccionar la mejor predicción.
🏆 Objetivo
Desarrollar un modelo que combine los resultados del modelo de regresión lineal con la capacidad de corrección de errores de KNN, evaluando dinámicamente si la predicción original de la regresión lineal es mejor que la ajustada por KNN y seleccionando la más precisa.
⚙️ Metodología
- Fase de Regresión Lineal
-
Se entrena un modelo de regresión lineal con el conjunto de datos de entrenamiento.
-
Se generan los coeficientes (intercepto y pendiente) y se predicen los valores para el conjunto de prueba.
- Fase de Ajuste con Vecinos Más Cercanos (KNN)
- Se entrena un modelo de KNN sobre los datos de entrenamiento.
Optimización de la Selección
Se compara el error absoluto de la predicción de regresión lineal y la predicción ajustada con KNN respecto al valor real.
Se selecciona la predicción con menor error.
📊 Beneficios del Modelo Híbrido propuesto.
✅ Corrige errores sistemáticos de la regresión lineal en conjuntos de datos con dispersión. ✅ Mejora la precisión en casos donde la relación no es perfectamente lineal. ✅ Evita un sobreajuste al no reemplazar indiscriminadamente todas las predicciones. ✅ Mantiene la interpretabilidad de la regresión lineal.
🛠️ Instalación y Requisitos
Este proyecto se generó con Python 3.10.12 y las siguientes librerías:
pandas matplotlib numpy sklearn
El detalle de las librerias puede ser encontrado en el archivo requirements.txt
📌 Conclusión
Este modelo híbrido de Regresión Lineal + KNN permite mejorar la precisión en datos dispersos, sin perder la interpretabilidad de la regresión lineal. Se puede aplicar en problemas de predicción donde se requiera mayor robustez ante errores en la distribución de los datos.
El modelo híbrido supera al modelo de regresión lineal en todas las métricas analizadas para este dataset. Reduce el error (MSE y MAE) y mejora la capacidad de explicación de la variabilidad de los datos (R²). Esto sugiere que la estrategia de ajustar la predicción de la regresión lineal con el vecino más cercano ayuda a mejorar la precisión del modelo.
Este resultado indica que, en este caso, incorporar información de los valores observados más cercanos a la predicción ayuda a corregir desviaciones del modelo lineal. El método híbrido podría ser especialmente útil en datos con cierta variabilidad no completamente explicada por la relación lineal.
🔹 Ventajas del Modelo Híbrido
-
Mejora la Precisión
-
La métrica MAE (Error Absoluto Medio) se redujo a 16.99, mejor que los valores obtenidos con Regresión Lineal (24.10) y KNN (27.73).
-
El R² aumentó a 0.85, lo que indica que el modelo híbrido explica mejor la variabilidad de los datos.
🔹Combina lo mejor de dos enfoques
-
La Regresión Lineal es buena para datos con tendencias generales.
-
El KNN es útil para corregir errores en datos no lineales, permitiendo mejorar la predicción al ajustar valores según vecinos más cercanos.
🔹 Flexibilidad
-
Puede ser ajustado con diferentes valores de k en KNN para mejorar el ajuste en distintos escenarios.
-
Se puede extender para incluir más factores o pesos en la combinación de los modelos.
🔹 Desventejas
-
Mayor Complejidad Computacional
+ Comparado con la regresión lineal sola, el modelo híbrido es más costoso en términos de computación, ya que requiere calcular vecinos más cercanos para cada predicción. -
No siempre es la mejor opción
+ Si los datos tienen una relación puramente lineal, la regresión lineal por sí sola podría ser suficiente. + KNN tiende a funcionar bien cuando hay suficientes datos, pero puede volverse ineficiente en datasets muy grandes. -
Dependencia de los Datos de Entrenamiento
+ KNN puede ser sensible a datos ruidosos o desbalanceados, lo que puede afectar la predicción híbrida si el dataset no está bien preprocesado.
📢 Próximos pasos:
-
Implementar validación cruzada para ajustar hiperparámetros.
-
Probar en datasets más grandes y con ruido para medir su eficacia.
-
Probar el modelo en distintos datasets y comparar los valores generados para determinar si mejora los resultados. 🚀
🔍 Comentarios y mejoras son bienvenidos! 🚀