Qu'est-ce qu'une foret aleatoire?
Une foret aleatoire (Random Forest) est un algorithme d'ensemble qui combine plusieurs arbres de decision pour obtenir de meilleures predictions.
Principe du Bagging (Bootstrap Aggregating):
- Creer plusieurs echantillons aleatoires des donnees (avec remise)
- Entrainer un arbre de decision sur chaque echantillon
- Agreger les predictions de tous les arbres
Specificite du Random Forest:
En plus du bagging, chaque split d'arbre ne considere qu'un sous-ensemble aleatoire des features.
Avantages:
- Reduit l'overfitting (par rapport a un seul arbre)
- Robuste aux outliers et au bruit
- Calcule automatiquement l'importance des features
- Pas besoin de normalisation des donnees
Inconvenients:
- Moins interpretable qu'un seul arbre
- Plus lent a entrainer
- Necessite plus de memoire