Abstract:
Les collections de données deviennent de plus en plus volumineuses et dans la
majorité des cas ne résident pas dans un emplacement centralisé, ce qui complique
l’application des techniques de Data Mining sur des données distribuées et souvent
hétérogènes. La plupart des algorithmes distribués se basent sur l’agrégation des modèles
produits de manière locale et notre approche rentre dans ce cadre. Nous présentons une
nouvelle approche distribuée qui prend en compte certaines caractéristiques de l’algorithme
OPTICS. Les données seront traitées localement sur chaque site pour produire des clusters à
partir des données locales, ensuite nous construisons les clusters globaux de manière
hiérarchique. Le but de cette approche est de minimiser les communications et maximiser le
parallélisme. Cette technique est évaluée et comparée à la version séquentielle.
Mots clés: Data Mining, Data Mining distribué, clustering, OPTICS.
Abstract
The data collections are becoming more and more larger and in most cases do not reside
in a centralized location. The latter complicates the application of traditional data mining
techniques on the data sets, which are distributed and often heterogeneous. Most distributed
algorithms are based on the aggregation of models produced locally. The approach we are
proposing belongs to this category. Our approach is fully distributed and it takes into account
certain characteristics of the OPTICS algorithm. The data will be processed locally on each
node to produce clusters from local data, then we construct the global clusters hierarchically.
The aim of this approach is to minimise the communications and maximise the parallelism
and reduce the overhead due to extra processing while executing the hierarchical clustering.
This technique is evaluated and compared to the sequential version using benchmark datasets
and the results are very promising.
Keywords: Data Mining, Distributed Data Mining, Clustering, OPTICS