aa

Langues et civilisations
à tradition orale
(UMR7107)

          Le CNRS           Accueil SHS          Autres sites CNRS          
cnrs paris3 paris4 inalco
Rechercher
Intranet Lacito English




  Accueil >Accueil Archive > Programme d'archivage de données linguistiques sonores et textuelles

Programme d'archivage de données linguistiques sonores et textuelles

  1. Résumé
  2. Structure des données
  3. Développements logiciels
  4. Historique

1. Résumé

Le programme d'archivage du LACITO a pour but de répondre à deux besoins majeurs ressentis par les linguistes : (1) l'archivage de documents sonores dans un format qui en assure la pérennité et l'accessibilité, et (2) la diffusion de tels documents dans le monde scientifique, ou chez les populations concernées. Pour ce faire, le programme a entrepris le développement de méthodes de codage et d'exploitation informatique de documents alignés texte/son selon des normes informatiques internationalement reconnues, XML (eXtensible Markup Language) et Unicode en particulier.

Le programme s'occupe en premier lieu de la conservation et la diffusion des matériaux linguistiques irremplaçables recueillis et transcrits sur le terrain par les chercheurs du LACITO depuis une trentaine d'années ainsi que des matériaux de même nature provenant d'autres laboratoires en France comme à l'étranger. Ces matériaux, pour la plupart des enregistrements de parole spontanée dans des langues sans écriture, ont servi, et servent encore, de base aux recherches sur les langues et les cultures concernées. Les transcriptions de certains textes ont été publiées, mais les documents sonores n'ont pu ni faire l'objet de publication, ni même être correctement archivés.

Le programme vise donc à la production de documents associant son numérisé et texte. L'aspect texte comprend, au minimum, la transcription phonologique et la traduction libre en français ou en anglais, accompagnées, selon le cas, de représentations orthographiques (là ou celles-ci existent, y compris dans des écritures non latines), de traductions en d'autres langues, de gloses morphologiques, de notes, etc. L'alignement de la transcription avec le son se fait généralement au niveau de la « phrase » ou du groupe intonatif, mais peut se faire également au niveau du mot ou du morphème. Les documents produits sont exploitables soit à travers un réseau INTERNET, INTRANET, soit en local sur CD-ROM.

Ordinogramme du programme.

2. Structure des données

2.1 Balisage de texte XML (eXtensible Markup Language)

Un balisage explicite XML a été adopté pour les données textuelles. Le plus souvent, ce balisage est ajouté par programme aux documents pré-existants dont la structure est implicite.

XML est une adaptation de la norme SGML (Standard Generalized Markup Language, ISO 8879). La version 1.0 de XML a été finalisée par le W3C (World Wide Web Consortium) en février 1998, ce qui constitue une garantie de très grande diffusion et de développement rapide des outils de gestion (interrogation, édition, etc.).

La structure des documents XML du programme fait l'objet d'une DTD (Document Type Definition), et tous les documents sont validés conformes à l'aide de parseurs libres. La DTD actuelle du programme, très simple, est commentée dans le document ici. Elle sera enrichie par la suite. Elle définit une structure de document comportant de 1 à 4 niveaux hiérarchiques possibles qui sont dans l'ordre : le texte, la phrase, le mot et le morphème. Chaque niveau comporte, outre une suite d'éléments de niveau inférieur, des données d'analyse (transcription, traduction, etc.) ainsi qu'éventuellement un élément précisant la plage des données son correspondante (balisé <AUDIO>) : exemple de début d'un tel document -- un conte en langue hayu (langue tibéto-birmane parlée par deux cents locuteurs au Népal). La structure logique du document est entièrement explicite et logiquement équivalente à une arborescence. Des parseurs/valideurs, des outils d'interrogation, des éditeurs, des programmes de rendu (formatage/affichage), etc., exploitant cette structure générique existent aussi bien dans le domaine logiciel libre que dans celui du logiciel commercial.

2.2 Feuilles de style XSLT (Extensible Stylesheet Language Transformations)

Les paramètres d'affichage d'un document XML, par exemple l'identité des éléments à afficher et le formatage de chacun d'eux, sont définis en XSLT, application du XML destinée aux feuilles de style qui a fait l'objet d'une recommandation du W3C en 1999. Ainsi la feuille de style appliquée au document XML donne une vue sur les données (capture d'écran). Une feuille de style différente donne une vue avec le mot-à-mot formaté.

2.3 Codage des caractères (Unicode)

Le standard Unicode (synchonisé sur la norme ISO/IEC 10646) affecte un code unique (dans un espace de 220 possibilités) à chaque caractère ou symbole employé dans un vaste ensemble de langues, y compris l'API, les alphabets indiens, les caractères chinois, etc. Son emploi permet d'éviter l'utilisation de codages et de polices non standard. L'Unicode est pris en compte notamment par XML.

Les documents d'origine du programme archivage ont le plus souvent utilisés, pour noter des caractères phonétiques, un codage non standard demandant l'utilisation d'une police particulière (SIL-IPA, NewLacito, etc). Actuellement, les documents XML du programme sont des fichiers texte-seul (ASCII, ISO-Latin-1, UTF-8, etc.). Les caractères phonétiques peuvent, par exemple, être codés sous la forme d'« entités caractères » indiquant la position du caractère dans le code Unicode (par exemple: le signe API « eng » est noté « &#331; », dans le 3ème mot du texte). Les textes sont affichés directement dans une police implémentant la ou les parties d'Unicode dont le texte fait usage (les captures d'écran [1] et [2] utilisent par exemple la police « Lucida sans Unicode »). Il existe maintenant de nombreuses polices implémentant tout ou partie d'Unicode. Voir la liste des polices conseillées dans les instructions pour lire correctement les textes du programme archivage.

2.4 Son

Le format de fichier son adopté dans le programme archivage est le format RIFF (fichiers WAV). C'est un format natif de la plate-forme Windows, mais il est aussi utilisable sur d'autres plates-formes. Le passage de ce format vers un autre est simple, et de nombreux utilitaires permettent de le faire.

Les paramètres suivants ont été adoptés pour la numérisation : échantillonage à 44,1 KHz sur 16 bits (comme la norme CD-Audio), stéréo ou mono selon l'enregistrement original. Ces paramètres, parfois excessifs par rapport à la qualité des originaux, ont été choisis pour éviter toute perte d'informations dans des documents pour la plupart irremplaçables.

Pour une diffusion par le web, tous les fichiers son ont aussi étés compressés en MPEG II Layer 3. Cette compression permet de diminuer par un facteur 10 l'encombrement des données et donc facilite les temps de tranfert lors d'une consultation en ligne. C'est aussi actuellement le meilleur compromis entre le taux de compression et la qualité sonore, cet algorithme de compression tenant en compte les caractéristiques de l'audition humaine.

2.5 Liens son/texte

Il n'existe pas à l'heure actuelle de solution complète pour l'intégration de documents multimédia. Le standard HyTime, origniairement conçu pour SGML, a été remanié dans l'environnement XML et réparti en différentes parties (XLink, SMIL, etc.). SMIL (Synchronized Multimedia Integration Language) est la partie consacrée au multimédia, mais la vision du W3C la rend plus apte a être utilisée pour des présentations statiques que pour des consultation interactives. En attendant une solution standardisée repondant à nos besoins, le programme a prévu un élément XML particulier pour exprimer l'ancrage temporel (balisé <AUDIO>) et des modules logiciel pour gérer la restitution synchronisée du son avec le texte.

3. Développements logiciels

Trois catégories d'outils logiciels sont développées dans le cadre du programme :

  1. Des outils de création de documents son/texte.
  2. Des outils de restitution multimédia des documents créés.
  3. Une architecture d'accès, de diffusion et d'interrogation des documents créés sur le web.

3.1 Outils de création

Le logiciel SoundIndex a été écrit au LACITO pour aider les chercheurs à établir la correspondance entre la transcription d'un texte et son enregistrement sonore. Une première version (1996-97) a été écrite en C++ pour Macintosh (capture d'écran). Il affiche la transcription, ainsi que l'onde sonore, lue à partir d'un fichier (en différents formats incluant AIFF, WAV, MPEG, etc.).
Dans le cadre du projet « Ingénierie des langues », une nouvelle version, travaillant sur les documents XML, a été développée en Tcl/Tk pour les plates-formes Windows, UNIX et Macintosh (capture d'écran). Les liens du texte avec le son sont enregistrés dans un élément XML balisé <AUDIO>, inséré dans chaque segment du document par le logiciel. Un utilitaire permet de convertir les données préparées par SoundIndex première version au format XML produit par la deuxième version. Ce logiciel est également disponible en code source sur le site web : http://michel.jacobson.free.fr

Interlinear Text Editor (ITE) est un logiciel qui permet aux utilisateurs linguistes d'entrer leurs transcriptions et leurs gloses interlinéaires, en particulier pour annoter des enregistrements sonores. Il permet à l'utilisateur d'entrer et d'éditer l'annotation sur quatre niveaux d'analyse: le texte, la phrase, le mot et le morphème. Les éléments des deux plus bas niveaux (i.e. mot et morphème) sont présentés phrase par phrase dans un format interlinéaire, avec le champs glose aligné sous le champs transcription. Pendant que le texte est glosé, le programme construit un lexique, ajoutant les nouveaux éléments trancrits avec leur glose ou ajoutant les nouvelles gloses pour les éléments transcrits existants. ITE facilite la saisie de l'annotation en proposant des gloses pour les éléments précédement recontrés dans le texte ou dans d'autres textes précédement saisis. Des fonctions pour faire des concordances et des recherche de mots ou de morphèmes sont fournis, facilitant la recherche et l'analyse des textes. Ce logiciel est disponible librement sur le site web : http://michel.jacobson.free.fr/ITE/

D'autres outils logiciels ont été définis pour ajouter le balisage XML à des fichiers texte dont la structure est implicite ou utilise d'autres conventions que celles qu'utilise XML. Ces outils, parfois ad hoc, servent à la récupération de données venant d'autres systèmes de création tels que Lexware ou Shoebox que certains linguistes ont utilisé par le passé ou continue parfois d'utiliser.

3.2 Outils de consultation

L'utilisateur accède au document par l'intermédiare d'un « browser » standard (Mozilla, Internet Explorer, etc.); il peut écouter le son correspondant à un segment choisi de la transcription, ou encore écouter tout l'enregistrement pendant que la transcription défile sur l'écran. Il peut choisir ou non de voir affichés les traductions dans différentes langues (capture d'écran), le mot-à-mot aligné avec la transcription (capture d'écran), etc., en fonction du contenu structural du texte et des feuilles de style aptes à rendre cette structure.

L'accès au son est assuré soit par un "player": soit une Applet Java, soit un plugin. Le player en question établie une communication avec le browser via un script écrit en Javascript. Ce dernier redirige les requêtes de l'utilisateur vers le player (arrêt du son, démarage du son à telle ou telle phrase, etc.). C'est lui aussi qui va demander au browser de mettre en valeur un segment particulier en réaction aux messages (activation, inactivation) envoyés par l'applet.

3.3 Architecture d'accès, de diffusion et d'interrogation

L'accès aux données se fait par des « méta-données », c'est-à-dire des données à propos des données et qui concernent principalement la langue, la culture, les participants, la situation d'enregistrement, etc. Ces méta-données sont doublement encodées en DCMI (Dublin Core Metadata Initiative) et en OLAC (Open Language Archives Community), qui précise l'interprétation de certaines étiquettes DCMI pour le domaine des archives de parole. Toutes ces informations sont accessibles en utilisant un protocole définit par l'OAI (Open Archives Initiative). Il existe plusieurs moteurs de recherche dans ces métadonnées listés dans la page des (Liens). L'utilisateur devra donc dans un premier temps définir les caractéristiques pertinentes pour sa recherche d'information, en fonction de celles disponibles dans les méta-données (langue, date d'enregistrement, etc.). Une fois ces caractéristiques connues, une liste des textes disponibles poura lui être proposée.

La diffusion des données est assurée par une architecture qui s'appui sur les technologies du web.
Coté serveur, une machine héberge sur ses disques toutes les données archivées (fichiers XML, WAV et MP3). Pour diffuser ces données, un serveur web (Apache) a été installé sur cette machine, c'est lui qui va assurer la communication entre les machines clientes et la machine serveur. Hormis le serveur web et des données d'archives, un processeur de styles (Xalan) ainsi qu'un certain nombre de feuilles de styles ont été ajoutés afin de pouvoir traduire à la volée les documents d'archives en documents XHTML directement interprétables par les machines clientes.
Coté client le seul outil nécessaire est un browser web, plus les ressources utiles pour rendre correctement les caractères Unicode des textes (polices), ainsi que celles pour rendre correctement le son des enregistrements (le Java Media Framework ou un plug-in audio).

4. Historique

La première maquette de document son/texte du programme archivage a été conçue et réalisée par J. B. Lowe en 1995. Depuis lors, l'architecture des documents et du logiciel a été conçue par J. B. Lowe et Michel Jacobson. Les logiciel, SoundIndex, ITE et les divers applets, scripts, etc., a été réalisé par Michel Jacobson.

Le programme a bénéficié du soutien du département Sciences de l'Homme et de la Société du CNRS, et du programme Ingénierie des Langues des départements SHS et Sciences pour l'Ingénieur (SPI) du CNRS.

Un contrat a été signé entre le Lacito et l'Agence de Développement de la Culture Kanak visant à la fourniture de CD-ROM pour le Centre Culturel Tjibaou à Nouméa. Ces CD-ROM, produits avec les ressources et les méthodes du programme archivage, présentent des textes traditionnels dans une quinzaine de langues de Nouvelle-Calédonie

Imprimer Contacter le webmestre Plan du site Crédits Accueil