Mémoire de mastère de recherche informatique

Publié par : Hosna2012

mémoire de mastère recherche:Segmentation et reconnaissance des images de mots en utilisant une approche analytique. L’écriture arabe est une écriture connexe dans sa forme manuscrite et imprimée ce qui engendre plusieurs difficultés : La notion de pseudo-mot pose le problème de distinction entre un mot et un pseudo-mot à cause de l’espace inter-mot qui n’est pas normalisé. L’existence des points diacritiques et des voyelles courtes au-dessus et au-dessous des caractères. Les caractères ne sont pas normalisés c’est à dire certains montent très haut alors que d’autres descendent très bas. Les travaux de Ben Hamadou (Ben Hamadou, 1993) montrent que la quasi-totalité du vocabulaire de la langue arabe est constituée d’une racine composée par 3 ou 4 consonnes, à laquelle est ajoutée une combinaison affixale formée d’un préfixe, d’un infixe et d’un suffixe. Donc, les mots assujettis par une décomposition en affixes et racines constituent le vocabulaire décomposable.


Consulter un extrait ci-dessous

Toujours, l'homme cherche le moyen de communication qui arrive à tous les lieux et qui ne soit pas influencé pas par le facteur du temps. Ce moyen était l'écriture. Ce qui nécessite l'invention du matériel qui le supporte. Ce dernier a connu une grande évolution commençant par la pierre arrivant au papier. En effet, ce papier est le support des mots qui représentent la reconnaissance culturelle et le pont de liaison des différentes civilisations. Pour cette raison, l'homme ne cesse pas de chercher à conserver ces papiers. Dans ce cadre, les Arabes apprirent au VIIIe siècle la fabrication du papier et la firent connaître en Europe. Ils constituèrent d'impressionnantes bibliothèques, dignes de leur grande et authentique culture.


Les progrès technologiques et les techniques de numérisations et l'informatique ont poussé les chercheurs à trouver d'autres idées de conservation de ces papiers portant le texte. Ce qui nécessite la numérisation du document (en code ASCII ou UNICODE) pour être compréhensible par l'ordinateur, d'où la naissance du domaine de recherche sur les documents comme la reconnaissance de l'écriture.


L'analyse et la reconnaissance de documents ont pour but de convertir un document sous format papier vers un format électronique compréhensible et réutilisable. Le document papier, une fois converti sous forme électronique, permet une recherche par le contenu, un transfert très rapide, un archivage et une gestion beaucoup plus aisée.


Plusieurs systèmes de reconnaissance de l'écriture latine, chinoise et japonaise sont publiés. Vu que les écritures latine, japonaise et chinoise ne présentent pas de grandes complexités, leurs systèmes de reconnaissance ont donné de bons résultats. Mais ce succès n'est pas encore prouvé par les systèmes de reconnaissance de l'écriture arabe à cause du manque de méthodes appliquées sur la reconnaissance de mots arabes, le manque de dictionnaires de mots arabes et les caractéristiques calligraphiques complexes de l'écriture telle que la forme des caractères. Contrairement au latin, la reconnaissance de l'écriture arabe imprimée reste encore aujourd'hui au niveau de la recherche et de l'expérimentation. Le problème n'est pas encore résolu bien que l'on sache atteindre des taux assez élevés dans certaines applications pour lesquelles le vocabulaire est limité. Les travaux de recherche sont généralement axés sur la méthodologie du développement plutôt que sur la réalisation d'un produit fini vendable. Une version commercialisable reste encore au stade du rêve, les efforts doivent se multiplier pour la réaliser.


L'objectif de M. Slim Kanoun était la mise en place d'un système de reconnaissance de textes imprimés monofontes et multitailles par décomposition affixale. L'intérêt de notre mémoire, intitulé "Segmentation et reconnaissance de Mots Décomposable Arabes Imprimés Multifontes par Approche Analytique Utilisant un Dictionnaire de la Langue", est la mise en place d'un moteur de reconnaissance de mots décomposables arabes imprimés par approche analytique tout en proposant un algorithme de segmentation fiable et tout en utilisant une vérification lexicale dans un dictionnaire de la langue. Nous organiserons notre mémoire en trois chapitres. Dans un premier chapitre, nous exposerons en premier lieu, les caractéristiques ainsi que les difficultés de l'écriture arabe, ensuite nous présenterons une description des principaux systèmes et approches de reconnaissance de mots et de textes arabes imprimés habituellement rencontrés dans la littérature. Dans un deuxième chapitre, nous exposerons, dans un premier volet, le cadre général de notre projet puis, nous présenterons dans un deuxième volet, une étude comparative entre des techniques de segmentation déjà utilisées dans des travaux antérieurs, dans un troisième volet, nous détaillerons la technique de segmentation utilisée dans notre mastère. Dans un troisième chapitre, nous détaillerons la phase de reconnaissance de notre système ainsi que les résultats expérimentaux obtenus.


Nous commençons ce chapitre par la présentation des caractéristiques calligraphiques de l'écriture arabe. Par la suite, nous dressons un bilan bibliographique concernant les systèmes de reconnaissance de mots arabes ainsi que certaines approches proposées dans la littérature.


L'écriture est un système de représentation graphique d'une langue, à travers des signes inscrits ou dessinés sur un support. Elle existe depuis des milliers d'années. De nombreuses écritures dominent le monde telles que l'écriture chinoise, latine, indienne, cyrillique et arabe qui est l'objet de notre travail.



Publier sur Facebook Publier sur Twitter
Informations
Date :

30/01/2013


Langue :

Français


Pages :

74


Consultations :

5024


Note :
Téléchargement Gratuit
  • Votre email n'est pas valide

    Vous devez valider les conditions d'utilisation

-->
Résumé

Auteur : hosna ghazel


Tags : Projet : reconnaissance des images de mots en utilisant une approche analytique en se basant sur un dictionnaire
Sur le même thème
Vues : 25288

Valoriser un centre de ressources documentaires : quelles pistes envisager ? Le cas du Centre de documentation de la Direction...

Vues : 4442

La gestion documentaire à l'ère du numérique : Mise en place d'une base de données à l'Association Internationale de la...

Vues : 4412

Cours sur Mémoire sur la Preuve électronique. Par exemple au Maroc le télé-service Simple TVA pour la télé-déclaration...

Vues : 4230

Du Cabinet de curiosités au Muséum : les origines scientifiques du Muséum d'histoire naturelle de Grenoble (1773-1855)

Vues : 3304

Etude fonctionnelle et d'opportunité pour le déploiement du SIGB libre Koha à l'Université Versailles Saint-Quentin en...

Vues : 1796

La bibliothèque publique, un espace en crise ? Un nouvel espace pour l'utopie

Commentaires
Aucun commentaire pour cette publication
Ajouter un commentaire
Envoyer
Pour envoyer la page de votre document, notez ici les emails destinataires de votre demande :
Séparez les emails par des virgules
Signaler un abus
Vous devez vous connecter ou vous inscrire pour noter un document.
Cliquez ici pour vous inscrire.
Vous devez vous connecter ou vous inscrire pour ajouter un commentaire.
Cliquez ici pour vous inscrire.
Vous devez vous connecter ou vous inscrire pour envoyer le document.
Cliquez ici pour vous inscrire.
Vous ne pouvez pas acheter de documents sur Needocs.
Vous pouvez vous référer aux conditions générales de vente et d'achat du portail pour connaître les modalités d'achat.