Resources :

 

Table of contents: 

 

 

Background to this data set: the AuCo collection

 

These Vietnamese documents are part of the AuCo collection, a project of the MICA International Research Institute in Hanoi, Vietnam. The aim of this project is to put together an open-access collection of recordings of languages of Vietnam and neighbouring countries. AuCo stands for AudioCorpora; it is also a reference to Âu Cơ, a fairy who bore an egg sac that hatched a hundred children: the Hundred Peoples (Bách Việt), ancestor to the Vietnamese and to the multitude of other ethnic groups of the area. The round dots in the logo of the AuCo/ÂuCơ collection are an allusion to these hundred eggs - a symbol of the cultural and linguistic diversity reflected in the collection. 

Logo of the AuCo project, International Research Institute MICA, Hanoi Univ. of Science and Technology

The aim of the AuCo collection to collect the documents recorded by researchers in the course of their research activity. The AuCo collection thereby fulfills an important function: it allows for cumulative progress in speech data collection. Preparing, recording and annotating audio data sets is highly time-consuming; with a little extra investment of time and effort, the data can be prepared in such a way as to be re-usable by others, for various purposes (including phonetic / phonological analysis, and automatic speech processing, but also language teaching / language revitalization). The AuCo collection aims to contribute to the documentation of a precious human heritage: the languages of the world. It also aims to facilitate interdisciplinary research involving engineers and linguists, through the sharing of data, tools and methods.
The AuCo collection is open to documents of various types: from unique heritage recordings dating back several decades, to everyday recordings of national languages collected for one-off research purposes. Because there is no telling when and how documents will be re-used, the AuCo collection chooses not to exclude any type of data.
The documents AuCo collection were recorded and transcribed / annotated by researchers from very different backgrounds, including the members of the "Speech Communication" department of the International Research Institute MICA (HUST - CNRS/UMI-2954 - Grenoble INP, Hanoi University of Science and Technology). The tasks involved in the preparation of the documents for archiving and online distribution are realized by members of the "Speech Communication" department of the MICA Institute. Long-term preservation (perennial archiving) and online distribution are taken charge of by the Très Grand Equipement Huma-Num, in partnership with CINES and IN2P3. Tasks of data filing are realized with the help of the two centres that serve as archive entry points: the Pangloss Collection / Cocoon data repository (CNRS-LACITO), and the Speech and Language Data Repository: SLDR (CNRS-LPL).


Back to table of contents

 

 

Phong Nha: a heterodox dialect of Quảng Bình Province

 

"The Vietnamese dialect of the hamlet of Phong Nha (commune of Sơn Trạch, county of Bố Trạch, Quảng Bình) is one of the “heterodox” dialects of Vietnamese, which are known to present considerable interest for the historical study of Vietnamese and of the Vietic group at large. These dialects are the product of the southerly expansion of Vietnamese over related (Vietic) languages, a process which involved various interferences. Comparative evidence reveals strata of standardization: some words are phonologically identical to Standard Vietnamese; others are of Southern Vietic stock, as demonstrated by the absence of telltale historical changes that took place in Vietnamese, such as the spirantization of medial stops; still others appear to be the result of hybridization."

(Michaud, Alexis, Michel Ferlus & Minh-Châu Nguyễn. 2015.
"Strata of standardization: the Phong Nha dialect of Vietnamese (Quảng Bình Province) in historical perspective."

Linguistics of the Tibeto-Burman Area
38(1). 124–162.)

The entire data set on which this study is based is made available here: click on the link below to access the full list.

a All available resources for the Phong Nha dialect


Back to table of contents

 

 

Cao Lao Hạ: a heterodox dialect of Quảng Bình Province

 

The Cao Lao Hạ dialect was investigated by Michel Ferlus in December 1993 together with Pr. Trần Trí Dõi. A six-page conference handout about this dialect was circulated in 1995:

Ferlus, Michel. 1995. Particularités du dialecte vietnamien de Cao Lao Hạ (Quảng Bình, Vietnam). Dixièmes Journées de Linguistique d’Asie Orientale. Paris. 

The data set on which the 1995 report is based is made available here: click on the link below to access the full list.

a All available resources for the Cao Lao Hạ dialect

About Cao Lao Hạ, a substantial resource in Vietnamese is available: Lê Văn Sơn, Địa chí làng Cao Lao Hạ, Nhà xuất bản Thuận Hóa, 2007 (313 pages). (The full text of this book, along with other information, was available, as of 2015, from the official website http://caolaoha.com/) Here are some excerpts. 

(i) historical background: the conquest and peopling of the Cao Lao Hạ area

"Cao Lao Hạ, xưa gọi là Kẻ Hạ thuộc châu Bố chính nay là xã Hạ Trạch, huyện Bố Trạch, tỉnh Quảng Bình. (...) Đối với làng Cao Lao Hạ, theo truyền tụng cũng bắt đầu từ những người di cư lập ấp từ thời Lý, Trần, nầy. Nhưng theo gia phả các họ tộc ở lâu đời nhất, có văn bản bút tích ghi chép, thì từ thời Hậu Lê, mà rõ nét nhất là từ thời Lê Thánh Tông (1470), xuống chiếu mộ dân lập ấp vào châu Bố Chính: “Bố Chính đất rộng người thưa, liền với châu Hoan, vậy quân và dân đến đó khẩn hoang (làm ăn) sẽ có lợi lớn” (trích chiếu Nam Hạ). Đây là đợt di dân lớn của triều Lê. Người bốn trấn phía bắc hưởng ứng chiếu, di dân rất nhiều. Phần đất vùng phía nam sông Gianh thuộc sơn hệ Lệ Đệ được danh dự đón tiếp người Thanh – Nghệ đến lập làng xóm, khai hóa ba làng Cao Lao liền, xưa gọi là Cao Lao Thượng (còn gọi là Kẻ Thạng), làng Cao Lao Trung (còn gọi là Kẻ Chuông ) và Cao Lao Hạ (gọi là Kẻ Hạ).
Đến thời Nguyễn Hoàng vào trấn thủ đất Thuận Hóa (1558) mới chia châu Bố Chính thành hia châu là Nam Bố Chính và Bắc Bố Chính. Phía nam Sông Giang là nam Bố Chính, phía bắc sông Giang là Bắc Bố Chính.
Cho đến khi chúa Trịnh đuổi được chúa Nguyễn ra khỏi Thuận- Quảng, (năm 1776), Lê Quí Đôn giã chức Hiệp Trấn, Tham Tán quân sự Thuận Hóa… đã chép trong sách Phủ Biên Tạp Lục rằng: “Châu Nam Bố Chính gồm hai tổng: Tổng Trứ Lễ và Tổng Lương Xá. Tống Trứ Lễ gồm 17 xã, 7 phường, 6 trang, trong đó có Cao Lao mà không phân biệt Cao Lao Thượng, Cao Lao Trung, Cao Lao Hạ.
Theo gia phả của dòng họ Lê Quang hiện còn lưu thì dưới thời Nguyễn (Gia Long), năm Tân Dậu (1801) ông Lê Quang Hào người làng Cao Lao Hạ thuộc tổng Thị Lễ được bỗ nhiệm giữ chức chỉ huy đội II của Vệ Chấn Võ (Vệ gồm 3.600 lính) thuộc đạo Trung Quân."

(ii) language: short notes about phonetics/phonology, and dialectal lexical items

"Lời ăn tiếng nói của người làng Cao Lao Hạ có những từ hơi khác với các nơi nhất là ngữ âm Cao Lao thì rất khác, cho nên khi nghe tiếng nói của người Cao Lao Hạ, người làng khác biết ngay biết ngay đó là người Cao Lao Hạ (Hạ Trạch). Thông thường, người Hạ Trạch nói dấu hỏi thành dấu nắng (sic.) và hạ thấp âm tiết. Một số thổ âm tuy có khác với đôi vùng, nhưng không nhiều, chỉ riêng ngữ âm là đặc biệt Cao Lao. Có thể khái quát rằng ngữ âm Cao Lao Hạ toàn là hạ thấp. Ví dụ: Cửa sổ nói là Cựa sộ (đa số là sử dụng dấu nặng thay dấu hỏi, ngã)."

Tiếng Cao Lao Hạ có những đặc biệt địa phương như:
- Phụ âm đầu “tr” thành “trl”. Ví dụ: con trâu = con trlâu; cây tre = cây trle; ăn trộm = ăn trlộm; một trăm = một trlăm v.v.
- Phụ âm: “nh” thành “d” hoặc “gi”. Ví dụ: cái nhà; cái dà; nhờ cậy; dờ cậy; nhiều ít: diều ít; con nhện: con dện v.v…
- Nguyên âm ă ghép với chữ m = ăm, khi phát âm thành am ví dụ: năm thì đọc thành nam, mắm thì đọc thành mám v.v.

Sau đây xin thống kê một số từ đặc biệt của địa phương so với tiếng phổ thông sắp xếp theo thứ tự: a, b, c.

Từ ngữ tiếng địa phương

Từ ngữ tiếng phổ thông

Từ ngữ tiếng địa phương

Từ ngữ tiếng phổ thông

chị

lịp

Nón

Lèng

Lành

Ba láp

bậy bạ

Lôông (cơn)

trồng (cây)

bọ (bọ, mạ)

Cha (cha, mẹ)

lện

sợ

Bâu (bâu áo)

Túi (túi áo)

Lưa

Còn

Bôông

Bông

Xeng mặt

Xanh mặt

Bù (cơn bù)

bầu (câu bầu)

Thóc

Cá bôống

Cá bống

lộ mô

ở đâu

cấu

gạo

Lòn cúi

luồn cúi

cẳng

Chân

mạn

mượn

cấy chi

Cái gì

mặc

Mang (áo)

cấy dôông

vợ chồng

mần răng

Làm sao

cạy (cạy trôốc)

Sưng (sưng đầu)

mọi chầu

thuở xưa

cậy

gậy

Mốôc

mốc

cụ (con cụ)

gấu (con gấu)

mờng

mừng (vui mừng)

Cươi

Sân

Mun

Tro

chặp đạ

Lát nữa

một chặp

chốc nữa

chộ

thấy

Náng

nướng

chầu tê

Ngày kia

Neng

Nanh (răng)

chọ họ

ngồi xổm

nậy

lớn

chờng

giường

Ót

Gáy

chỉn (trượi chỉn)

chỉ (sợi chỉ)

Con oong

Con ong

chừ

Bây giờ

Ôông (mụ)

Ông (bà)

cấy tê

Cái kia

Ôông tra

Ông già

cấy nớ

Cái đó

phợ hoang

vỡ hoang

Côi

Trên

phộ (phộ tay)

vỗ (vỗ tay)

cộ nu

củ nâu

Răng rứa

Sao vậy

Coong

Con cu rừng Sác

Rào

Sông

Côôc ( côộc cây)

gốc (gốc cây)

rụng rại

chậm rải

cợi

cưỡi

rạ (cơn rạ)

rựa (cái rựa)

Cơn ló

Cây lúa

(roọng su)

( ruộng sâu)

Cơn rạ

Cái rựa

riệu

rượu

cựa

cửa

rọt (rà)

ruột (rà)

cuốc

guốc

Ròi, mọi

ruồi, muỗi

Cái dấn

Cái võng

Săng

Quan tài

Dim

Nhâm

Su

Sâu

Du ( o du)

Dâu ( cô dâu)

Seeng

Sanh chảo

đưới

dưới

tắn

rắn

Đa

Da

Toóc

rạ

đập chắc

Đánh nhau

bổ (ngã)

Đam

Cua đồng

Teng

tanh

Đàng  sa

Đường sá

Tít (cơn tít)

rết ( con rết)

Đòi hay rượt

đuổi

tịa

Dĩa

Đòn riêng

Đòn gánh

Thúi

thối

Đơợng

đựng

Thúi néc

Hôi nách

Đôồng (ló)

đồng (lúa)

Trù

trầu

đứng chặng trựa

đứng ở giữa

Théc

ngủ

ẻ, ẻ đấy

ỉa, ỉa đái

thốt (nhà)

dột (nhà)

Eng (iêm)

Anh (em)

trằm trồ

kể chuyện

Eếc

ếch

trấy

quả

Dà cáy

Gà gáy

Xeng

Xanh

giại mòi

vải thô

Tra

trần (rầm nhà)

Giác

Nhác (lười)

Tráp noóc

lợp nóc mái nhà

giạ đò

Giã vờ

Trôốc cúi

đầu gối

Hun hít

Hôn hít

Trôốc

đầu

Giui giẹ

Vui vẻ

Trâu rọm

Sâu róm

hớng nác

hứng nước

Tréc (đất)

Trách (làm bằng đất)

kế

ghế

Trù

trầu

Khái

cọp, hổ

trự

chữ

Kháp

gặp

trựa

giữa

khớn

chừa (chừa chưa)

Túi

tối

Khun

Khôn

U –ê

nhiều lắm

lạ

lửa

Út

Em

lại

lưỡi

Áo trẻ em

Lái

lưới (chài lưới)

 

 

"

Another Vietnamese dialect, close to that of Cao Lao Hạ, was also investigated by Michel Ferlus, that of Phú Trạch. See: Ferlus, Michel. 1996. Un cas de vietnamisation d'un dialecte vietnamien hétérodoxe du Quảng Bình (Vietnam). Onzièmes Journées de Linguistique d'Asie Orientale. Paris. Ferlus (p.c.) reports that the Phú Trạch data were elicited by selecting some items from the Cao Lao Hạ list of vocabulary. The Phú Trạch data were not recorded on tape, only as a set of manuscript notes.

Classification of the Vietic languages (a.k.a. Viet-Muong, Việt-Chứt) after Ferlus 1996, with links to the corresponding pages in the Pangloss Collection: 

1. Maleng 2. Arem 3. Chứt 4. Aheu 5. Hung 6. Thổ 7. Mường 8. Vietnamese (this page)

These materials were digitized and edited as part of a project (Sept. 2014-Feb. 2016) funded by the Digital Scientific Library, a programme of the French Ministry for Higher Education and Research. 

Digital Scientific Library

Back to table of contents

 

Northern Vietnamese (Hanoi Vietnamese) data sets:

Title Data Related documents
Data on two sentence-final particles View details       

Interspeech 2013 conference paper: "The interplay of intonation and complex lexical tones: how speaker attitudes affect the realization of glottalization on Vietnamese sentence-final particles".

The full paper is available from the HAL archive: click here.

The six tones of sonorant-ending syllables of Hanoi Vietnamese, on the syllables /a/ and /ɗa/ View details       

     

 

Last updated 2015.

Contact: Alexis Michaud