Le Data Clustering, en français partitionnement de données, est un ensemble de méthodes issues des statistiques et permettant d’analyser des données à grande échelle. En pratique, il s’agit de diviser un ensemble de données en clusters, des paquets homogènes. En d’autres termes, on va faire en sorte que chaque membre d’un groupe soit très similaire aux autres membres du groupes, et différent des membres d’autres groupes.