Abstract:
La croissance de l’internet fût accompagnée d'un intérêt particulier à l'analyse
des données web. L’extraction de ces données est reconnue actuellement comme
une tâche cruciale pour exploiter les informations issues du web, notamment dans
un projet d’entreposage. La plupart des méthodes actuelles d’extraction ont été
conçues pour traiter une seule source à la fois, cependant la prise en compte de
l’aspect multi-source est un élément déterminant dans le domaine d’extraction
d’information à partir du web.
Le travail présenté dans ce mémoire s’inscrit essentiellement dans une
double orientation de recherche dont les objectifs sont d’une part l’extraction multi-source d’information à partir du web et d’autre part la construction d’un entrepôt
médical. Nous proposons une approche, pour l’extraction d’information à partir du
web, basée sur un système d’inférence qui permet de suggérer une méthode
d’extraction adéquate pour chaque source web dans un projet d’extraction multi-source. Le système proposé exploite les connaissances contenues dans une ontologie.
Cette dernière regroupe : les caractéristiques des méthodes d’extraction, celles de la
source web en question, et le niveau de manipulation d’utilisateur exploitant notre
système. Cette approche est très efficace, car elle permet de tirer les avantages de
chaque méthode. L’expérimentation réalisée montre l’intérêt de cette démarche, ainsi
l’extraction a été effectuée à partir de deux sources web pour alimenter un entrepôt
XML de médicaments.