Recherche

L’échange intensif de documents multilingues numérisés ouvre au TAL des perspectives de recherche qu’un point de vue majoritairement monolingue a longtemps laissés hors du champ de vision des linguistes talistes. Ce changement d’optique se répercute aux différents niveaux de traitement, des questions de codage des écritures à celles de la forme et du contenu du document numérisé. Nos activités de recherche se situent au carrefour de ces problématiques qui sont analysées et traitées sous un angle pluridisciplinaire (linguistique, informatique, documentation).

Nos propositions prennent donc en charge les dimensions de forme (structure du document, encodage) et de contenu (sémantique), les deux aspects étant bien entendu indissociables. Elles présentent à la fois un fort intérêt théorique pour les prémisses du TAL et ouvrent un large spectre de recherches technologiques, pédagogiques, et autres. Les problèmes complexes auxquels nous confrontent la nature multilingue et multimédia des documents numérisés sont en effet à la mesure des perspectives d’application qu’ils dessinent.

Problématique 1 : Enjeu du multilinguisme

    1.  Codage, transcodage des écritures

Cette question figure dans les fondamentaux de nos recherches depuis la création du CRIM, la demande dans les murs de l’INaLCO (100 langues) justifiant à elle seule cet intérêt. Plusieurs applications dédiées notamment à l’arabe, au cyrillique, au grec, ainsi qu’aux langues africaines ont été développées dans le passé (voir par exemple les projets EVALDA, ATOS ou ALPCU).

La réflexion menée dans les années récentes montre qu’une solution aux problèmes du multilinguisme, de la multiplicité des codages et de la variété des applications réside dans l’utilisation d’une représentation complexe des symboles manipulés. Une décennie de travaux dans un contexte multilingue et multi-écritures nous a fait passer d’une définition du caractère en tant que signe graphique à une conception plus complexe du caractère comme objet virtuel (ensemble de propriétés de différents niveaux).

Le groupe « Ecritures multiples », constitué en 2003, met des connaissances historiques et technologiques à la disposition des usagers sur le site « Ecritures du Monde », soutenu par le Ministère de la culture.

D'un point de vue applicatif, ER-TIM a pour objectif de conduire une évaluation de la portabilité des logiciels multimédia en contexte multilingue. L'équipe a déjà testé, pour le logiciel Flash, cette portabilité pour le tamoul, chinois, géorgien, grec, arabe. Il s'agit désormais d'étendre l'expérience à d'autres systèmes d'écriture et de donner accès à la consultation des résultats en ligne, pour faire de l'INaLCO et d'ER-TIM des spécialistes reconnus de l'informatique multilingue.

A la suite des projets e-learning (ATOS, ALPCU) et m-learning (anglais [at] mobile.fr) déjà menés,  ER-TIM souhaite également étendre cette évaluation vers l'apprentissage en mobilité : les navigateurs des appareils mobiles pourraient alors être évalués à l'aune de leur compatibilité avec les différents systèmes d'écriture. Ces informations sont à l'heure actuelle totalement absentes des notices des fabricants et ER-TIM souhaite élaborer les ressources qui lui permettront de devenir un acteur incontournable du multilinguisme.

 

    2.  Grammaires plurielles et options TAL

La segmentation en unités pertinentes et leur étiquetage en catégories morphosyntaxiques constituent les tâches basiques de l’analyse automatique des langues. Dès que l’on travaille sur des fragments de données ou de textes multilingues, des incertitudes surgissent : la simple comparaison physique de lexies en allemand, en anglais et en français révèle l’ampleur des problèmes épistémologiques sous-jacents.

Les études menées de longue main dans nos rangs sur la comparativité des grammaires descriptives se poursuivent, dans le double intérêt de l’enseignement et de la recherche. L’engagement pris dans le programme EVALDA pour l’évaluation de méthodologies d’alignement de textes parallèles illustre bien l’importance de ces questions théoriques et l’intérêt des recherches qui peuvent être menées à l’INaLCO.

La difficulté à définir une approche commune pour l’analyse et l’étiquetage des catégories grammaticales et fonctionnelles des langues et des textes reste un obstacle majeur pour le développement des techniques et des outils du TAL multilingue. Nous comptons apporter notre contribution à la fois par des travaux théoriques et par l’expérience pratique de projets concrets comme SAFIR, PRINCIP, e-lexiques...

Dans le cadre du traitement du japonais, ER-TIM a réalisé une étude sur la fouille de texte (text mining) en japonais, mais également un recensement et une évaluation des outils du TAL japonais aussi bien pour l'analyse morpho-syntaxique (Chasen, Basic, etc.) que pour la normalisation de corpus (Text Mining Tool, Tesseract 2.01). Ce type d'étude, coûteuse en temps, devrait être conduite sur d'autres langues, de façon à faire de l'INaLCO un spécialiste du TAL outillé.

 

    3.  Linguistique de corpus et multilinguisme

La pratique monolingue ou bilingue (essentiellement français-anglais) a conduit à sous-estimer l’impact des différences linguistiques et sémio-textuelles sur l’alignement de corpus. L’optique multilingue remet en question le biais auquel on a indistinctement recours en ingénierie linguistique, à savoir l’alignement de textes parallèles (textes traduits, le plus souvent de l’anglais). Il s’agit aujourd’hui de faire des propositions opérationnelles sur la typologie des corpus de textes bi- et multi-lingues en vue de leur traitement et de leur exploitation. La pertinence des données (lexicologiques, terminologiques et autres) acquises en corpus en dépend. Les projets industriels menés au CRIM(EDF, CNES...) nous ont donné largement l’occasion de confirmer ces hypothèses. Par ailleurs, on a pu évaluer lors de ces expériences la difficulté d’accéder à des outils spécifiques pour traiter les corpus de textes en langues rares. Nos collaborations avec la recherche industrielle (boîte Xelda de Xerox) et l’Université (Hyperbase, Lexico, Syntex, Acabit...) permettent de développer les fonctionnalités manquantes en contexte multilingue. Nous comptons multiplier les initiatives auprès de nos partenaires pour créer un centre de ressources dédié au multilinguisme. Les projets VIGITERMES (pour le japonais) et C-MANTIC (pour le chinois) nous permettent déjà de traiter automatiquement de significatifs corpus de langues asiatiques.

Les techniques de corpus alignés parallèles et comparables concernent de nombreuses applications présentes et à venir (...) et constituent en tant que telles un axe central de nos recherches technologiques.

Du point de vue applicatif, le projet e-lexiques a montré deux écueils des corpus parallèles : d'une part l'opération de traduction obère la qualité de la langue cible et ne permet pas d'établir des ressources lexicales fiables, d'autre part la non prise en compte du genre des textes lors de la collecte de corpus aboutit à l'établissement de ressources lexicales    « fourre-tout » mélangeant langue générale et langue de spécialité. Dès lors, ER-TIM va orienter ses recherches vers la détection automatique des genres, en contexte multilingue, de façon à pouvoir traiter des textes de genre équivalent. Quant au traitement des textes eux-mêmes, ER-TIM s'oriente, pour la production de ressources lexicales, vers une utilisation plus systématique des corpus comparables.

    4.    Représentations « objets » pour le TAL

Les objectifs qui viennent d’être énoncés imposent une réflexion théorique et des développements informatiques sur les thèmes suivants : représentation des symboles « abstraits » (classe correspondant aux caractères, glyphes, graphèmes,...) ; représentation et traitement de « chaînes » (suites finies de tels objets) ; représentation des « lemmes » (points d’entrée uniques ou non dans les dictionnaires) également sous formes de classes abstraites ; représentation de bases de données (lexicales, textuelles ou hypertextuelles) homogènes ou hétérogènes (texte-image/schéma-son) sous forme de relations complexes entre objets ; représentations syntaxiques non arborescentes et non projectives également sous forme de relations complexes entre objets.

 

Problématique 2 : Le document numérique

La numérisation des contenus et l’informatisation de leur exploitation ont pour effet de bouleverser les conditions sous lesquelles les contenus sont constitués et exploités, de leur création à leur consultation. L’ingénierie linguistique est ainsi confrontée à un ensemble nouveau et très complexe de problèmes à la fois théoriques et pratiques qui concernent les documents numérisés (textes), aussi bien par leur forme que par leur contenu.

    1.    Formes et formats

Le passage du texte sur support papier au document numérique introduit une instabilité dans la configuration formelle des textes qui relève du sémiotique et donc des compétences réunies dans l’équipe : l’éclatement des ressources numériques - a fortiori dans un contexte multilingue - génère des objets sémio-linguistiques auxquels il convient de donner un statut avant de les considérer comme des ressources textuelles pertinentes pour une application donnée (par ex. constitution de données pour la lexicographie, la veille d’informations...). On mentionnera aussi, dans ce cadre, la participation d'ER-TIM à la rédaction de « Documents et Modernités » (RTP-DOC) en mars 2006.

L’évolution actuelle de la représentation des documents numériques va, en effet, dans le sens de la séparation y compris physique (fichiers distincts éventuellement situés à des emplacements différents du réseau) des données de structuration (définition des étiquettes, « dtd » par ex.), de texte structuré (format « xml » par ex.) et d’affichage (réalisation physique de la structuration, format « xsl » par ex.).

Tout en croisant la problématique de la linguistique de corpus, ces questions la débordent largement par leur dimension technologique, liée notamment à l’hypertextualité et au multimédia (traitement des métadonnées, images-textes, etc.).

Quant au document numérique lui-même, les nouveaux modes d'édition sur le web (web social, web 2.0) et ses outils (blogs, wiki) impliquent une transformation profonde de la diffusion des savoirs, y compris le savoir scientifique. ER-TIM se fixe d'une part l'objectif d'assurer une veille informationnelle sur les productions savantes (revues, blogs, e-books, éditions scientifiques, etc.) assurées par différentes communautés (savantes, bibliothèques et documentalistes, éditeurs) et d'autre part de tester un nouveau modèle éditorial basé sur la technologie wiki.

    2. Genres et discours

Le passage d’un objet stable dans l’espace et dans le temps (le texte papier) au document comme flux textuel susceptible de métamorphoses multiples demande que l’on repense la caractérisation de ces documents (textes) en termes de genre et de discours.

La demande sociale portant massivement sur les besoins documentaires et traductionnels, les ressources que l’on cherche majoritairement à constituer concernent les terminologies scientifiques et techniques. Jusqu’à une date récente, il était aisé de recueillir un corpus de textes spécialisés, de taille limité, préalablement indexé par des documentalistes avant de mettre en œuvre l’extraction des termes d’un domaine après un rapide typage discursif. Cette approche est révolue. Dès lors que l’on constitue son corpus à partir du Web, l’hétérogénéité des textes (résumés, index, textes traduits, fragments hybrides, etc.), jointe à la difficulté à en identifier la source et l’auteur (type discursif), demande d’autres propositions si l’on veut caractériser les documents en vue de leur sélection. Ces questions, que nous avons déjà affrontées lors du projet Princip, constituent à nos yeux un chantier prioritaire.

La manière dont il y sera répondu concerne directement les enjeux du filtrage d’informations et plus généralement la constitution de données pertinentes pour plusieurs classes d’application.

Le débat actuel sur la création d’ontologies pratiques autour du Web sémantique peut être considéré comme un versant du même problème. En mettant les textes au centre de nos travaux, nous nous mettons en situation de dépasser le simplisme d’une ingénierie linguistique ayant le mot isolé pour seul horizon.