Abstract:
La recherche d'information a été orientée pendant longtemps vers les informations
textuelles, mais le document a pris une forme plus complexe depuis l’apparition du Web et a
permis de fournir plusieurs types de media. Par ailleurs, l’explosion du volume d’information
dans le Web, a créé un énorme besoin d’établir des méthodes très efficaces pour satisfaire le
besoin d’information des utilisateurs. Ce besoin a fait l’objet de plusieurs travaux récents.
Dans ce travail, nous proposons une technique de représentation des pages Web par
leurs blocs de contenu ; cette technique s’inscrit dans le domaine de l’extraction d’information
dans le Web. L’idée fût de segmenter la page Web en un ensemble de blocs basé sur la
structure visuelle de la page et de construire les indexes de ces blocs à partir des informations
qui y sont retenues, et d’en déduire l’index de la page, en vue de considérer les blocs de
contenu, lors d’une requête, au lieu de la page entière.
Après l’implémentation des deux méthodes développées, les résultats expérimentaux
montrent que la technique proposée fournit un taux de précision très important. Cela signifie
que notre technique de représentation des pages Web apporte beaucoup de précision de
recherche.