aa

Langues et civilisations
à tradition orale
(UMR7107)

          Le CNRS           Accueil SHS          Autres sites CNRS          
cnrs paris3 paris4 inalco
Rechercher
Intranet Lacito English




  Accueil > Accueil Pangloss > La Collection Pangloss

Présentation de la Collection Pangloss

(cliquer pour accéder à la vidéo)

film



La Collection Pangloss, un fond sonore de langues rares to-up

La Collection Pangloss réunit des documents linguistiques sonores, avec une spécialité de langues "rares" ou peu étudiées. Son but est de contribuer à la documentation et à l'étude du patrimoine humain que représentent les langues du monde.

Les documents présentés contiennent en majeure partie de la parole spontanée, enregistrée dans son contexte social et transcrit en consultation avec les locuteurs.

On y trouvera aussi des séances d'enquête et des listes de mots.

Ces documents ont été enregistrés et annotés par des chercheurs d'horizons très variés, dont les chercheurs du Lacito.

La gestion de la collection est assurée par une équipe du Lacito.

Elle contient actuellement 1460 enregistrements en 70 langues, dont 430 documents annotés.

La Collection Pangloss fait partie d'une collection plus vaste et plus large nommée Cocoon : Collections de Corpus Oraux Numériques (anciennement CRDO-Paris). Cette dernière, contrairement à Pangloss, ne rassemble pas uniquement des corpus de langues rares ou à tradition orale mais accueille toutes les langues du monde.

 

Des documents sonores, avec transcriptions synchronisées

Pour la science linguistique, la langue est en premier lieu la langue parlée. Or, le support de la langue parlée est le son. Pour cette raison, la Collection Pangloss donne accès aux enregistrements sonores d'origine aussi bien qu'aux transcriptions et traductions ; c'est une garantie d'authenticité et une ressource pour la recherche.

Ce projet vise donc à la production de documents associant son numérisé et texte. L'aspect texte comprend, au minimum, la transcription phonologique et la traduction libre en français ou en anglais, accompagnées, selon le cas, de représentations orthographiques (là ou celles-ci existent, y compris dans des écritures non latines), de traductions en d'autres langues, de gloses morphologiques, de notes, etc. L'alignement de la transcription avec le son se fait généralement au niveau de la « phrase » ou du groupe intonatif, mais peut se faire également au niveau du mot ou du morphème.

 

Pangloss : Une archive structurée, à architecture ouverte

Afin d'assurer la pérénnité de ces ressources "rares", elles font partie intégrante d'une archive structurée selon les normes actuelles (XML, OLAC, Dublin Core ...), dans un format ouvert.

Aussi bien ces données que les outils qui servent à leur préparation et leur diffusion sont librement disponibles sur ce site.

 

Publications

2011. MICHAILOSVSKY, Boyd ; MICHAUD, Alexis ; GUILLAUME, Séverine. "A simple architecture for the fine-grained documentation of endangered languages: the LACITO multimedia archive". Keynote talk at Oriental-COCOSDA 2011, Hsinchu, Taiwan.

 

Jacobson, Michel; Boyd Michailovsky et John Brandon Lowe: Linguistic documents synchronizing sound and text dans le numéro spécial "Speech Annotation and Corpus Tools" de la revue Speech Communication, n°33 (2001).
Version pre-publication disponible en format pdf

 

Communications

Jacobson, Michel. 2004. « La documentation sur les langues : de la collecte des données brutes à leur archivage ». Colloque: Sources et ressources pour les sciences sociales - Nature/Traitement/Modélisation. Paris EHESS. 9-11 decembre 2004.

Lowe, John; Michel Jacobson et Boyd Michailovsky. 2004. « Interlinear Text Editor Demonstration and Projet Archivage Progress Report ». 4th E-MELD (Electronic Metastructure for Endangered Languages Data) workshop on language engineering: Linguistic Databases and Best Practice. Detroit. 15-18 juillet 2004.

Jacobson, Michel et Boyd Michailovsky. 2003. « Le programme "Archivage" et la mise en ligne des archives orales du LACITO ». La diffusion du patrimoine sonore. Après-midi d'étude de l'Association Française des détenteurs d'Archives Sonores (AFAS). Paris. 2 octobre 2003.

Jacobson, Michel. 2003. « Corpus informatisé en linguistique de terrain ». Linguistique et Corpus. 36e Colloque International de la Societas Linguistica Europea. Lyon. 4-7 septembre 2003.

Jacobson, Michel et Alexis Michaud. 2002. « Le projet archivage du LACITO ». Collecte et exploitation de corpus dans le domaine berbère. Journées d'étude de l'INALCO. Paris. 6 décembre 2002.

Jacobson, Michel et Boyd Michailovsky. 2002. « Linking Linguistic Resources: time aligned corpus and dictionary ». Resources and Tools in Field Linguistics. Workshop international. Las Palmas. 26-27 mai 2002.

Michailovsky, Boyd. 2002. « Searchable speech/text corpora: a resource for spoken language ». SCALLA (Sharing Capability in Localisation and Human Language Technologies). Working Conference, National Center for Software Technology (Programme de la Commission Européenne: ASIA-Information Technology and Communications). Bangalore. 21-23 novembre 2001.

Jacobson, Michel. 2001. « Un système d'édition pour des documents linguistiques texte-son ». 4e Colloque International sur le Document Electronique. Toulouse. 24-26 octobre 2001.

Mazaudon, Martine et John Brandon Lowe. 2001. « Limbu and Hayu online text demonstration ». Workshop on Tibeto-Burman Linguistics. U.C. Santa Barbara. 28-29 juillet 2001.

Jacobson, Michel. 2001. « Archivage de documents linguistiques et leurs applications » Journée Jeunes chercheurs en Linguistique Appliquée. Paris. 27 juin 2001.

Michailovsky, Boyd. 2001. « The LACITO Archive project markup (pdf) ». The Need for Standards. Workshop The Digitization of Language Data. Santa Barbara. 22 juin 2001.

Jacobson, Michel; Boyd Michailovsky; Françoise Ozanne-Rivierre et Jean-Claude Rivierre. 2001 « La documentation des langues et des traditions orales: Le projet Archivage du LACITO ». Colloque international Identités autochtones: Paroles, écrits et nouvelles technologies. Paris (UNESCO). 17 mai 2001.

Jacobson, Michel et Boyd Michailovsky. 2000. « A linguistic Archive on the web ». Workshop Web-Based Language Documentation and Description. Philadelphie. 14 décembre 2000.

Jacobson, Michel. 2000. « Les outils modernes pour la notation de corpus de parole ». Colloque Transcription de la parole normale et pathologique. Tours. 8 décembre 2000.

Jacobson, Michel. 2000. « XML Tools for managing linguistic data: The LACITO Archives Project ». Workshop Linguistic Exploration: New methods for creating, exploring and disseminating linguistic field data. Chicago. 6 janvier 2000.

Jacobson, Michel. 1998. « Projet Archivage: pour la conservation de documents sonores et textuels synchronisés en linguistique ». Colloque Immagini, Memoria, Digitalizzazione. Milan. 26 novembre 1998.

 

L'équipe

Séverine Guillaume contact

Boyd Michailovsky contact

Alexis Michaud contact

 

Copyright

L'Archive est une réalisation du laboratoire «Langues et Civilisations à Tradition Orale» du Centre National de la Recherche Scientifique français.

Le copyright des documents archivés appartient aux auteurs. L'utilisation non-commerciale à des fins de recherche est autorisée ; veuillez contacter le programme Pangloss pour toute autre utilisation.

Imprimer Contacter le webmestre Plan du site Crédits Accueil