Recherche

L’échange intensif de documents multilingues numérisés ouvre au TAL des perspectives de recherche qu’un point de vue majoritairement monolingue a longtemps laissés hors du champ de vision des linguistes talistes. Ce changement d’optique se répercute aux différents niveaux de traitement, des questions de codage des écritures à celles de la forme et du contenu du document numérisé. Nos activités de recherche se situent au carrefour de ces problématiques qui sont analysées et traitées sous un angle pluridisciplinaire (linguistique, informatique, documentation).

Nos propositions prennent donc en charge les dimensions de forme (structure du document, encodage) et de contenu (sémantique), les deux aspects étant bien entendu indissociables. Elles présentent à la fois un fort intérêt théorique pour les prémisses du TAL et ouvrent un large spectre de recherches technologiques, pédagogiques, et autres. Les problèmes complexes auxquels nous confrontent la nature multilingue et multimédia des documents numérisés sont en effet à la mesure des perspectives d’application qu’ils dessinent.

Problématique 1 : Enjeu du multilinguisme

1. Codage, transcodage des écritures

Cette question figure dans les fondamentaux de nos recherches depuis la création du CRIM, la demande dans les murs de l’INaLCO (100 langues) justifiant à elle seule cet intérêt. Plusieurs applications dédiées notamment à l’arabe, au cyrillique, au grec, ainsi qu’aux langues africaines ont été développées dans le passé (voir par exemple les projets EVALDA, ATOS ou ALPCU)... (lire la suite)

2. Grammaires plurielles et options TAL

La segmentation en unités pertinentes et leur étiquetage en catégories morphosyntaxiques constituent les tâches basiques de l’analyse automatique des langues. Dès que l’on travaille sur des fragments de données ou de textes multilingues, des incertitudes surgissent : la simple comparaison physique de lexies en allemand, en anglais et en français révèle l’ampleur des problèmes épistémologiques sous-jacents... (lire la suite)

3. Linguistique de corpus et multilinguisme

La pratique monolingue ou bilingue (essentiellement français-anglais) a conduit à sous-estimer l’impact des différences linguistiques et sémio-textuelles sur l’alignement de corpus. L’optique multilingue remet en question le biais auquel on a indistinctement recours en ingénierie linguistique, à savoir l’alignement de textes parallèles (textes traduits, le plus souvent de l’anglais)... (lire la suite)

4. Représentations « objets » pour le TAL

Les objectifs qui viennent d’être énoncés imposent une réflexion théorique et des développements informatiques sur les thèmes suivants : représentation des symboles « abstraits » (classe correspondant aux caractères, glyphes, graphèmes,...) ; représentation et traitement de « chaînes » (suites finies de tels objets) ; représentation des « lemmes » (points d’entrée uniques ou non dans les dictionnaires) également sous formes de classes abstraites ; représentation de bases de données (lexicales, textuelles ou hypertextuelles) homogènes ou hétérogènes (texte-image/schéma-son) sous forme de relations complexes entre objets ; représentations syntaxiques non arborescentes et non projectives également sous forme de relations complexes entre objets.

Problématique 2 : Le document numérique

La numérisation des contenus et l’informatisation de leur exploitation ont pour effet de bouleverser les conditions sous lesquelles les contenus sont constitués et exploités, de leur création à leur consultation. L’ingénierie linguistique est ainsi confrontée à un ensemble nouveau et très complexe de problèmes à la fois théoriques et pratiques qui concernent les documents numérisés (textes), aussi bien par leur forme que par leur contenu.)

1. Formes et formats

Le passage du texte sur support papier au document numérique introduit une instabilité dans la configuration formelle des textes qui relève du sémiotique et donc des compétences réunies dans l’équipe : l’éclatement des ressources numériques - a fortiori dans un contexte multilingue - génère des objets sémio-linguistiques auxquels il convient de donner un statut avant de les considérer comme des ressources textuelles pertinentes pour une application donnée (par ex. constitution de données pour la lexicographie, la veille d’informations...)... (lire la suite)

2. Genres et discours

Le passage d’un objet stable dans l’espace et dans le temps (le texte papier) au document comme flux textuel susceptible de métamorphoses multiples demande que l’on repense la caractérisation de ces documents (textes) en termes de genre et de discours... (lire la suite)