K-Means vs DBSCAN
K-Means fonctionne bien pour des clusters spheriques de taille similaire. Mais que faire si:
- Les clusters ont des formes irregulieres?
- Il y a des outliers/anomalies?
- On ne connait pas le nombre de clusters?
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) resout ces problemes!
Concepts cles:
- Epsilon (eps): Rayon de voisinage
- Min_samples: Minimum de voisins pour etre un "core point"
- Core point: Point avec >= min_samples voisins dans son eps
- Border point: Point dans le voisinage d'un core point
- Noise point: Ni core ni border (outlier!)
Avantages:
- Detecte automatiquement le nombre de clusters
- Trouve des clusters de formes arbitraires
- Identifie les outliers
- Pas besoin de specifier k
Inconvenients:
- Difficulte avec des densites variables
- Sensible aux parametres eps et min_samples