Pourquoi reduire la dimensionnalite?
La PCA (Principal Component Analysis) est une technique de reduction de dimensionnalite qui transforme des donnees a N dimensions en M dimensions (M < N).
Problemes des donnees haute dimension:
- Difficulte de visualisation (>3D impossible)
- "Fleau de la dimension" (distances deviennent similaires)
- Overfitting (trop de features pour peu de donnees)
- Temps de calcul eleve
Ce que fait la PCA:
- Trouve les directions de variance maximale
- Projette les donnees sur ces directions
- Garde les M premieres directions (composantes)
Avantages:
- Reduit la complexite tout en preservant l'information
- Supprime les correlations entre features
- Facilite la visualisation
- Peut ameliorer les performances des modeles
Limitations:
- Transformation lineaire uniquement
- Perte d'information (meme si minimisee)
- Composantes moins interpretables