import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# réponse

# réponse

# réponse

# réponse

# réponse

# réponse

# réponse

data["Latitude"] = pd.to_numeric(data["geo_point_2d"].str.split(',').str.get(0))
data["Longitude"] = pd.to_numeric(data["geo_point_2d"].str.split(',').str.get(1))

data = data.select_dtypes(np.number)

# réponse

# réponse

# réponse

# réponse

# réponse

# réponse

# réponse

# réponse

# réponse

from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# le R², à la différence des autres indicateurs, est calculé sur l’échantillon d’apprentissage !
# Il représente la part des variations de la variable cible expliquées par le modèle.
# Plus il est proche de 1, meilleur est le modèle.
print("R2 :", r2_score(y_train, modele_knn.predict(x_train)))

# les autres indicateurs sont basés sur l’échantillon de validation
print("MCE :", mean_squared_error(y_test, y_predict_knn))
print("RMCE :", np.sqrt(mean_squared_error(y_test, y_predict_knn)))

# réponse

# Régression linéaire

# ElasticNet

# SVR

TP4 - ML : régression ¶

Données¶

Présentation¶

Importation et affichage¶

Données manquantes¶

Autres variables à supprimer¶

Variables qualitatives¶

Séparation¶

Transformation¶

Echantillon d'apprentissage (données d'entraînement)¶

Echantillon de validation (données de test)¶

Apprentissage¶

Choix du modèle¶

Création du modèle¶

Apprentissage du modèle¶

Validation du modèle¶

Sélection du meilleur modèle¶

Retour sur le choix des hyper-paramètres (validation croisée)¶

Autres modèles¶

Conclusion¶