Reconnaissance Matricielle de Caractères manuscrits

 

Description

RMC est une démonstration de Reconnaissance Matricielle en hors-ligne de Caractères manuscrits isolés. La reconnaissance hors-ligne concerne les documents scannés. Elle est à distinguer de la reconnaissance en-ligne pour laquelle un stylo spécial permet de connaître l'ordre du tracé, comme dans le cas des tablettes tactiles des assistants personnels numériques (PDA).

 

Introduction

La Reconnaissance Matricielle des Caractères est un cas très simple de reconnaissance de formes (RdF). Elle peut constituer un apport supplémentaire pour la confrontation de plusieurs scores de reconnaissance. Cette méthode est particulièrement adaptée aux caractères majuscules imprimés ou manuscrits (caractères bâton) s'ils sont tracés avec application.

La procédure de reconnaissance est élémentaire car elle ne comporte pas l'étape d'extraction de caractéristiques et de primitives autres que celles faisant appel à la notion de pixel. Tout au plus allons nous considérer un ensemble irréductible de pixels, répartis dans une matrice rectangulaire susceptible de représenter l'ensemble des caractères à reconnaître. La technique consiste à un ajustement matriciel (recadrage des caractères) afin de faire correspondre les tailles des caractères à comparer.

L'astuce de la méthode est d'utiliser un apprentissage réalisé sur des matrices de plusieurs tailles ajustées sur les caractères de l'alphabet, grâce à un recadrage impliquant une redistribution statistique (déterministe) des pixels. Ensuite, la reconnaissance consiste à comparer chaque matrice de chaque caractère de l'alphabet avec la matrice recadrée du caractère candidat et de retenir la taille de matrice et le caractère appris ayant obtenu la meilleure discrimination sur l'alphabet.

La méthode de reconnaissance détaillée est décrite dans une annexe (format [Pdf : 303 Ko] [Word97/2000 : 126 Ko] [PostScript : 90 Ko]) qui n'a pas été intégrée à la thèse, car cette méthode simpliste de reconnaissance n'a pour but que de compléter un système de reconnaissance plus général qui confronterait plusieurs méthodes sensiblement différentes en tenant compte des plausibilités de reconnaissance de chaque méthode (cf. Chapitre III § 3. de la thèse).

 

Présentation de la démonstration

DemoInsa.bat

L'exemple choisit pour présenter les résultats est celui de la reconnaissance de dossiers de candidature de l'INSA, lesquels sont soumis à un alphabet imposé. Le fait d'imposer un alphabet strict ainsi que le précasage des caractères, qui autorise une bonne segmentation, permet d'obtenir un assez bon taux de reconnaissance, même dans le cas de la reconnaissance hors ligne omniscripteur de l'écriture manuscrite, qui est le plus difficile du domaine.

Cette démo utilise deux fichiers au format BMP, un fichier pour les caractères à reconnaître et un autre pour les modèles. Cette démo peut donc servir de base pour réaliser d'autres de tests de reconnaissance avec un alphabet de référence quelconque (cependant, contrairement à la reconnaissance par graphe structurel, cette méthode ne peut traiter que les caractères bâtons).

Un utilitaire (BMPTOIMG.EXE) convertit les fichiers du format BMP vers le format IMG Eyestar (IMG Eyestar : format autrefois utilisé par les scanners de type MICROTEK). Il faut faire attention à ce que les images au format BMP soient binaires, en blanc sur fond noir et la tête en bas.

Dans un premier temps, on procède à un apprentissage des matrices des caractères de l'alphabet, puis le fichier d'apprentissage permet ensuite de reconnaître un dossier d'inscription numérisé. Pour cette démonstration, il n'y a pas de calcul automatique du taux de reconnaissance, ni d'évaluation de la plausibilité de reconnaissance de chaque lettre.

 

Téléchargement

Cette version du logiciel est un freeware, son utilisation et sa distribution sont totalement libres.

Téléchargement du logiciel rmc_demo (94 Ko).

 

Pour envoyer un Mél. patrice.dargenton@free.fr

Adresse web : http://patrice.dargenton.free.fr/ia/rmc/index.html

 

Retour à la page ORS Production