Dans le cadre de cet exercice, nous procéderons à l'importation du jeu de données prédéfini « iris ». Le lien de la documentation se trouve ci-après:
Question 1 : Jeu de données¶
Charger le jeu de données à partir du dépôt scikit-learn.
Charger le jeu de données à partir du fichier iris_data.csv.
fournir une description détaillée du jeu de données, incluant son format, les types des attributs ainsi qu'une explication de chacun des attributs.
Question 2 : Prétraitement des données¶
Le jeu de données nécessite-t-il un prétraitement (tel que le nettoyage, la transformation, etc.) avant l'application des techniques de forage de données ?
Les données cibles sont-elles présentes ? Si oui, de quel type d'apprentissage s'agit-il (apprentissage supervisé ou non supervisé) ?
Ainsi, opteriez-vous pour des techniques de classification ou des techniques de régression ? Justifiez votre choix et vos analyses.
Question 3 : Clustering¶
3-1)
Appliquez une décomposition en deux composantes principales (2-CP) et trois composantes principales (3-CP) du jeu de données. Affichez une visualisation des données après transformation.
3-2)
Appliquez la méthode t-SNE sur le jeu de données. Affichez une visualisation des données après transformation.
3-3)
Que pouvez-vous conclure concernant les deux méthodes utilisées, à savoir PCA et t-SNE ?
3-4)
Instanciez les trois modèles suivants du module sklearn.cluster, entraînez-les sur votre jeu de données, puis effectuez des prédictions. Évaluez ensuite les résultats obtenus.
KMeans
AgglomerativeClustering
DBSCAN