Qu'est-ce que le clustering hierarchique?
Le clustering hierarchique cree une hierarchie de clusters, representee par un arbre appele dendrogramme.
Deux approches:
- Agglomerative (bottom-up): Chaque point est un cluster, on fusionne iterativement
- Divisive (top-down): Tous les points forment un cluster, on divise iterativement
L'approche agglomerative est la plus courante.
Algorithme agglomeratif:
- Chaque point = 1 cluster
- Trouver les 2 clusters les plus proches
- Les fusionner en 1 cluster
- Repeter jusqu'a n'avoir qu'un seul cluster
Avantages:
- Pas besoin de specifier k a l'avance
- Dendrogramme visualise la structure a tous les niveaux
- Pas d'initialisation aleatoire (deterministe)
Inconvenients:
- Complexite O(n^3) en memoire et temps
- Pas adapte aux tres grands datasets (>10K points)
- Une fusion ne peut pas etre defaite