Evalda

Nom du projet

Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation

 

Type du projet

Appel d'offre Technolangues (projet national, Ministere de l'Industrie)

 

Date debut - date fin

10/2002 - 09/2005

 

Partenaires

Les partenaires sont composés d'organisateurs, de fournisseurs de corpus et de participants à la campagne d'évaluation.
Les organisateurs : ELDA (European Langauage distribution Agency)
DELIC (Description Linguistique Informatisée sur Corpus)
Les fournisseurs de corpus : ELDA (European Langauage distribution Agency)
DELIC (Description Linguistique Informatisée sur Corpus)
CNRS FRE 2546
CRIM (Centre de Recherche en Ingénierie Multilingue de l'INaLCO)
Les participants : CRIM (Centre de Recherche en Ingénierie Multilingue de l'INaLCO)
LIA (Laboratoire d'Informatique d'Avignon)
LIDILEM (Laboratoire de linguistique et didactique des langues étrangères et maternelles)
LIST (Laboratoire d'Informatique Scvientifique et Technique, CEA)
LORIA (Laboratoire Lorrain d'Informatique et ses Applications)
XRCE (Xerox Research Center Europe)

 

Qui du CRIM s'engage dans le projet ?

François Stuck

 

Objectifs

Explorer les techniques d'alignement de corpus à travers une évaluation fine des techniques existantes et le développement de nouvelles méthodes d'alignement. Ce projet fait suite à une précédente campagne d'évaluation de techniques d'alignement de corpus Arcade I.

 

Description du projet

Première Phase
Le premier type d’évaluation proposé dans le présent projet (ARCADE II) consistera donc en une évaluation spécifique des ruptures de parallélisme, qui ne faisait pas partie d’ARCADE I :

  • identification des omissions
  • identification des ajouts
  • identification des interversions locales (phrases voisines)
  • identification des changements d’ordre à longue portée (glossaires, etc.)

Les évaluations de l’action d’Arcade I pourront ensuite être reproduites, afin d’identifier les évolutions réalisées depuis 1998, et de fournir une base de comparaison aux systèmes participants. En plus de l’anglais, d’autres langues étrangères seront intégrées (le français demeurant la langue pivot).
 

Voici, à titre d'exemple, un fichier parallèle français-arabe, obtenu à partir d'articles du Monde Diplomatique.

fichier aligné français-arabe

Les corpus parallèles obtenus peuvent aider à faire de l'extraction de terminologie, en utilisant par exemple des patrons morphosyntaxiques, comme dans ce fichier.

Les résultats d'une telle extraction peuvent être très longs, ainsi que le montre ce fichier d'environ 10.000 formes verbales extraites automatiquement, à partir de patrons morpho-syntaxiques, du corpus Evalda.

Une fois un tri effectué, on projette les termes retenus sur les fichiers parallèles, de façon à extraire la terminologie dans la langue cible. Voici un exemple.

Deuxième Phase Dans une deuxième phase, l’évaluation se concentrera sur l’appariement lexical. Comme il est apparu au cours de l’action ARCADE I ou du Projet Blinker (Melamed, 1998), l’extraction de correspondances lexicales pose deux types de défis :

  • définir précisément les unités concernées et les relations mises en jeu, en explicitant des critères linguistiques fiables afin de guider les annotateurs ;
  • développer les méthodes permettant d’obtenir automatiquement ce type d’extraction.

Lors de cette deuxième phase ARCADE II s’articulera en deux sous-campagnes, sur des corpus parallèles :

  • pour le repérage des cognats (toutes langues). L’évaluation portera sur diverses classes de cognats : les cognats étymologiques, les emprunts, les noms propres (de lieux et de personnes), les abréviations et acronymes.
  • pour le repérage des traductions (translation spotting), en reprenant les 60 mots-test d’ARCADE I sur l’ancien corpus (le JOC) de façon à étalonner les systèmes, et sur un nouveau corpus (Hansard) . Par ailleurs, sur le JOC, 80 nouveaux mots (+ 20 adverbes) seront introduits dans l’évaluation.

Ainsi, ARCADE II, tout en étant dans la continuité d’ARCADE I, présentera des aspects innovants et exploratoires, par exemple en intégrant des langues distantes du français (telle que l’arabe, le russe, l’indonésien, etc.).

L’action sera ouverte à une large communauté internationale par le biais d’un appel à participation électronique (le non-financement des participants étrangers n’est pas un obstacle : lors de ARCADE I, de nombreux participants sans financement ont fourni des prestations de qualité).

 

Rôle du CRIM dans le projet

Le CRIM fournira avant tout des corpus alignés et documentés au projet. Des techniques d'alignement de corpus fon,dées sur la recherche de cognates sera aussi explorée.

 

Communications et publications

Le projet est en cours de démarrage. Les publications seront mis en ligne dès que possible.

 

Perspectives

  • Pour le projet : Développer de nouvelles techniques d'alignement valables dur différents corpus.
  • Pour l'INaLCO et pour le CRIM : Affirmer la présence de l'établissement dans le domaine du traitement de données multilingues.