• Gros travail actuellement peu reconnu
  • A prendre en compte dès que possible dès la formulation du projet de collecte de données (qui en bénéficiera grandement)
  • Utiliser des formats simples pour faciliter la conversion (pas de mise en forme avec un traitement de texte)

Conseils pour la constitution d'un corpus

    • La technologie évolue rapidement et les conditions d'enquêtes sont également très diverses selon les localités : accès au réseau électrique, qualité du réseau (coupures, absence de prise de terre), lieu d'enregistrement.
    • Le plus important au plan de la technique est l'acoustique du lieu où l'on enregistre (la réverbération est ce qui rend les enregistrements le plus désagréables à l'écoute et qui nuit le plus à leur qualité acoustique. On peut se faire une idée de la qualité accoustique d'un lieu en tapant dans ses mains. Une pièce tapissée de bibliothèques amortira le son et donnera un bon résultat tandis qu'une pièce aux murs de ciments nus créera de la réverbération), le second facteur par ordre d'importance c'est la qualité des micros (enregistrer en stéréo est recommandé même pour la parole car cela ouvre des possibilités de traitement du signal)
    • Le choix de l'enregistreur se fait solidairement du choix des micros de façon à fournir le niveau de préamplification requis par les micros. Le reste est affaire de robustesse, ergonomie, durée d'enregistrement sur batterie...
    • Le Lacito possède de nombreux appareils / micros/ caméras... pour effectuer les enregistrements sur le terrain. Contacter Anne Bélingard pour plus d'information. Pour rappel, merci de vous y prendre bien à l'avance (au même moment que pour le dépôt de la demande de mission). Se souvenir que les matériels sont très demandés pendant la période de vacances universitaire (juillet-août)
    • Fichiers audio :
    • Le format de fichier audio conseillé est le WAV (le FLAC pour les très longs fichiers audio > 2Go)
    • Les paramètres suivants ont été adoptés : a minima le standard du cd audio soit un échantillonnage à 44100 Hz sur 16 bits. A la date de 2017, enregistrer en 48000 Hz/ 24 bits est vivement recommandé. Cela permet de garder une marge de sécurité à l'enregistrement (de l'ordre de 12 décibels) tout en assurant un grand confort pour l'amplification numérique du signal après enregistrement
    • Tout s'apprend par la pratique. Prenez le temps de tester et retester le matériel avant votre départ et à nouveau sur le terrain avant les séances d'enregistrement de façons à pouvoir vous concentrer eus les tâches d'élicitation le moment venu
    • Fichiers vidéo :
    • Le format de fichier vidéo conseillé est le MP4
    • Les paramètres suivants ont été adoptés pour la numérisation : échantillonage au minimum à 44,1 KHz sur 16 bits
  • Les chercheurs ont tendance à sous estimer le défi que constitue la prise de données audio fiables et abondantes. Des réflexions et conseils pratiques à ce sujet sont disponibles ici.
    • Penser le nommage des fichiers dès le début est indispensable pour s'y retrouver dans un corpus
    • Ajouter un certain sens dans le nom des fichiers (ex : AnneeEnregistrement_NomDeLaLangue_LieuEnregistrement.wav ou AnneeEnregistrement_NomLocuteur.wav...)
    • Jamais d'espace (utiliser l'underscore à la place "_"), d'accents, de caractères spéciaux dans un nom de fichier
    • Chaque ressource doit être renseignée par quelques informations nécessaires à leur indexation
    • Un titre, le nom de la langue, le lieu de l'enregistrement, le nom des participants (chercheurs, locuteurs...), la date d'enregistrement, une description du contenu, les droits de diffusion
    • Un formulaire est disponible pour renseigner correctement toutes ces informations (téléchargeable ici)
    • Dans l'idéal, 3 sauvegardes devraient être faites
    • Si tout est stocké dans le même lieu un risque supplémentaire est pris (incendie, problème électrique...)
    • A moyen terme, sur 2 ou 3 ans, il faut déposer les données auprès d'une institution spécialisée en vue de leur archivage pérenne. Dès lors, la sauvegarde des données et la préservation de leur intégrité est assurée. Il n'est alors plus nécessaire d'improviser localement des copies multiples et autres précautions "non professionnelles" pour éviter la perte des données. La diffusion publique des données est techniquement indépendante de ce dépôt de sauvegarde (cas des données en cours d'exploitation, dont on souhaite différer l'ouverture au public)
    • Une sauvegarde brute d'un ensemble de fichiers vaut toujours mieux que rien MAIS...
    • Une description des fichiers ainsi qu'une logique de nommage de ces mêmes fichiers doit impérativement être pensée en amont
    • , faute de quoi des difficultés parfois insurmontables se posent à l'étape de la mise en forme du corpus
    • Les méthodes pour transcrire, traduire et gloser les documents linguistiques sont essentiellement les mêmes depuis plus de 100 ans : On fournit une traduction mot à mot (glose interlinéaire), une traduction de l'énoncé entier
    • La structuration logique du texte constitue une avancée décisive qui associe de façon non équivoque un élément en langue cible (morphème, mot, phrase...) avec sa glose et sa traduction, dans autant de langues que le souhaite le chercheur
    • Pour y parvenir, on propose un format comme le format Pangloss. Il s'agit d'un format pivot aisément compatible avec divers outils (Toolbox, Elan, Transcriber, SayMore, Praat...)
    • Annotation : "Commentaire, note, explication attachée à un document"
    • Dans le cadre de la Collection Pangloss, il s'agit de transcriptions et traductions du contenu d'un enregistrement audio qui sont éventuellement découpés en mots, morphèmes puis glosés.
      Les annotations peuvent se présenter sous diverses formes :
      • Un document PDF, résultat de la numérisation de notes manuscrites.
      • Un document structuré au format XML / Pangloss (un extrait ci-dessous)
      • Les fichiers d'annotations tels qu'ils ont été définis dans le cadre de notre Collection Pangloss possèdent 4 éléments de base :

        • Une balise TEXT qui englobe toutes les informations
        • Une balise S (sentence) qui permet de délimiter chaque "phrase" du texte
        • Une balise W (word) pour un découpage de la phrase en mot
        • Une balise M (morpheme) pour un découpage des mots en morphèmes


        Pour chaque élément, il est possible d'ajouter une traduction ou une glose grace à la balise TRANSL (translation).
        Un balise NOTE permet également d'ajouter des commentaires pour le texte ou pour chaque phrase. Enfin, puisque la base de toutes ces annotations est l'enregistrement audio, il est possible de synchroniser le fichier audio et le fichier d'annotations grace à la balise AUDIO.
        Cette balise permet d'indiquer, pour chaque phrase, à quel moment elle est prononcée dans l'enregistrement.
        Cette synchronisation permet ainsi d'avoir accès aux annotations et simulatanément de pouvoir écouter l'enregistrement correpondant en entier ou d'en écouter une phrase particulière.
        Voici un Exemple de texte annoté et son enregistrement tels que vous pouvez les consulter sur le site.

        Visualiser le fichier XML correspondant.

Etapes pour déposer un corpus

  • Transmission du corpus à l'équipe Pangloss
  • Discussion sur les questions de droit de diffusion et d'archivage
  • Vérification de la validité des formats
  • Mise en forme ou conversion si nécessaire
  • Validation par le producteur du travail de l'équipe Pangloss
  • Dernier échange avant mise en ligne du corpus
  • Dépôt du corpus dans Cocoon (entrepôt où se trouve toute la collection Pangloss)
  • Définition des droits d'accès
  • Archivage au CINES (via Cocoon)

Parcours de déposants : deux exemples

  • Collecte : Depuis le début des années 2000, Guillaume Jacques a recueilli et transcrit de grandes quantités d'enregistrements de langue japhug (rgyalrong)
  • Dépôt : A partir de 2012, Guillaume Jacques a déposé des documents dont seule une petite partie comporte des gloses interlinéaires et un alignement texte-son au niveau de la phrase. Ces données abondantes sont désormais librement disponibles pour les spécialistes du domaine, qui avec l'aide d'un dictionnaire peuvent déchiffrer la transcription
  • Perspective d'enrichissement : Autant la transcription et la traduction ne peuvent être réalisées que par un spécialiste de la langue (qui, si chevronné soit-il, doit vérifier auprès d'un consultant linguistique locuteur natif), autant des tâches comme l'alignement avec le son et la lemmatisation peuvent représenter des exercices d'apprentissage pour étudiants, ou être déléguées à des assistants. Des enrichissements de ce type sont envisagés, avec pour objectif une lemmatisation intégrale. Cela permet au chercheur de se concentrer sur des tâches qui sont spécifiquement de son expertise.
  • Trois textes de langue romani intégralement glosés ont été déposés par Evangelia Adamou. Ils comportent une innovation au plan du balisage : les emprunts à d'autres langues sont encodés comme tels par une balise dans le document XML (format d'archivage) et signalés visuellement sur l'interface de consultation
  • Cet exemple illustre la possibilité d'enrichir les documents en y ajoutant, lorsque c'est nécessaire, des informations non prévues par le format initial