Abstract:
Ces dernières années, la quantité de données générées par les machines physiques
connectées à Internet a augmenté exponentiellement, puisque nous numérisons même les
informations les plus insignifiantes, nous appelons ces données les Big Data, c'est-à-dire
les données massives, ces dernières étant non seulement très volumineuses mais aussi très
diverses. Ceci crée d'ailleurs, un problème de stockage, d'analyse, de traitement et surtout
d'intégration des données, ce qui constitue un dé? complexe pour les organisations qui
déploient de grandes architectures de données en raison de la nature hétérogène des don-
nées qu'elles utilisent, par conséquent, une approche globale est primordiale pour négocier
les dé?s de l'intégration. En e?et, les ontologies sont largement utilisées dans l'intégration
des données car elles représentent la connaissance comme une description formelle d'un
domaine d'intérêt. Dans le domaine de la santé, les Big Data sont l'ensemble des données
sanitaires et sociodémographiques disponibles auprès de différentes sources et collectées
pour diverses raisons. L'utilisation de ces données hétérogènes présente de nombreux in-
térêts : identification des facteurs de risque d'une maladie, aide au diagnostic, choix et
suivi de l’efficacité des traitements, épidémiologie, etc. ... De nombreuses technologies et
outils ont été développés pour permettre l'intégration des données dans le secteur sa-
nitaire. Notre présentation passe en revue les principales approches liées à l'intégration
des données, propose une nouvelle approche qui exploite la sémantique pour résoudre le
problème de la variété des Big Data. Nous décrivons particulièrement une approche per-
mettant d'intégrer des données provenant de plusieurs types de sources a?n d'améliorer
la prévision de la santé.