- Desarrollamos un proyecto de machine learning, para determinar la calidad del agua y su potabilidad, con la columna target IS_SAFE, sobre si el agua se considera segura o no. El proyecto en principio se hará con aprendizaje supervisado de clasificacion, al ser nuestro target un clasificador binario (segura o no segura). Usaremos tanto modelos normales (regresion logistica, SVM..) como modelos con técnicas de más complejas de ensembles (XGBOOST, RANDOM FOREST...).
- Utilizaremos un dataset sobre la calidad del agua, con columnas de las concentraciones de distintas sustancias que pueden ser contaminantes.
- Dado el desbalance del target, haremos modelos con oversampling y sin balancear, y los compararemos.
- Buscaremos los parametros óptimos de nuestros mejores modelos, con gridsearch y cross value.
- Keywords(Python, kaggle, Data Cleaning, Visualización, aprendizaje supervisado)