Abstract:
La reconnaissance automatique de l'écriture manuscrite(OCR) est l'un des problèmes les plus difficiles dans le domaine
de la reconnaissance de formes notamment l'écriture arabe en raison de sa nature complexe. L'extraction des attributs est
l'une des étapes les plus importantes dans les OCR. Notre thèse s’inscrit dans ce cadre, elle constitue une contribution au
domaine de la reconnaissance de l’écriture arabe manuscrite en agissant sur la phase d’extraction d’attributs. Dans un premier
temps, nous avons fait une étude comparative entre quatre types d’attributs et nous les avons appliqués pour la reconnaissance
de l’écriture dans les anciens manuscrits arabe. Les résultats de cette étude ont montré le besoin d’une nouvelle méthode de
d’extraction d’attributs notamment dans les anciens manuscrits arabe. Par la suite, nous avons proposé un nouvel attribut
(pour la reconnaissance de l’écriture arabe manuscrite) appelé HMB (Histogram of Marked Background). La nouveauté avec
cet attribut est qu’il ne prend pas uniquement en compte les pixels d'encre dans une image texte, mais utilise également le
fond de l'image. Chaque pixel de fond de l'image de texte est marqué en fonction de la répartition des pixels d'encre dans
son voisinage. Les vecteurs de caractéristiques sont extraits en calculant des histogrammes (HMB) à partir des images
marquées. Les modèles de Markov cachés (HMM) sont utilisés dans le processus de reconnaissance. L’attribut HMB est testé
sur deux bases de données : la base de données IBN SINA de documents arabes historiques et la base de données de caractères
isolés (IFHCDB). Notre attribut HMB a produit des résultats efficaces et prometteurs pour la reconnaissance de l'écriture
arabe manuscrite, à la fois pour les caractères isolés et pour les documents historiques.