Spaces:

dpc
/

mmstts

Running

App Files Files Community

p commited on Jun 2, 2023

Commit

c9574d9

0 Parent(s):

Text to speech for 1000+ languages

Browse files

Files changed (7) hide show

.gitattributes +34 -0
.vscode/settings.json +6 -0
README.md +21 -0
app.py +202 -0
lang_code.json +1114 -0
mm_num2word.py +142 -0
requirements.txt +5 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.vscode/settings.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+    "[python]": {
+        "editor.defaultFormatter": "ms-python.black-formatter"
+    },
+    "python.formatting.provider": "none"
+}

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+title: Massively Multilingual Speech (MMS) - Text To Speech
+emoji: 🌍
+colorFrom: yellow
+colorTo: gray
+sdk: gradio
+app_file: app.py
+pinned: true
+---
+## Info
+Text to speech for more than 1000+ languages - Using [fairseq](https://github.com/facebookresearch/fairseq/blob/main/examples/mms/README.md) MMS TTS and [ttsmms](https://github.com/wannaphong/ttsmms) wrapper.
++ Language Iso code list (`lang_code.json`) is adapted from
+https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html
+The dropdown list is quite long, so I have placed some of my friends' frequently used languages at the top. The other 1000+ languages are sorted alphabetically.
++ `mm_num2word.py` is adapted from https://github.com/hpbyte/Myanmar_Number_to_Words
++ Other dependencies, please prefer to the `requirements.txt` file.

app.py ADDED Viewed

	@@ -0,0 +1,202 @@

+# Based on example code of https://huggingface.co/facebook/m2m100_1.2B
+# and https://github.com/wannaphong/ttsmms
+# See also https://github.com/facebookresearch/fairseq/blob/main/examples/mms/README.md
+import gradio as gr
+import os
+import re
+import soundfile as sf
+import json
+import nltk
+from underthesea import sent_tokenize as vie_sent_tokenize  # Vietnamese NLP toolkit
+from underthesea import text_normalize as vie_text_normalize
+from nltk import sent_tokenize as nltk_sent_tokenize
+from ttsmms import download
+from ttsmms import TTS
+from collections import OrderedDict
+import uuid
+import datetime
+import shutil
+from num2words import num2words
+this_description = """Text To Speech for [1000+ languages](https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html) - using [fairseq MMS TTS](https://github.com/facebookresearch/fairseq/blob/main/examples/mms/README.md) and [ttsmms](https://github.com/wannaphong/ttsmms) wrapper.
+Please note that for some languages, it may not pronounce all words correctly (yet).
+"""
+nltk.download("punkt")
+# Pre-download some languages
+tts_models = {}
+eng_path = download("eng", "./data")
+tts_models["eng"] = eng_path
+vie_path = download("vie", "./data")
+tts_models["vie"] = vie_path
+mya_path = download("mya", "./data")
+tts_models["mya"] = mya_path
+# Do some work in the user directory...
+# Load language codes from lang_code.json with ordered keys
+with open("lang_code.json") as f:
+    lang_codes = json.load(f, object_pairs_hook=OrderedDict)
+lang_codes = {
+    key + " (" + lang_codes[key] + ")": lang_codes[key] for key in lang_codes}
+# Extract language names
+language_names = list(lang_codes.keys())
+def convert_eng_numbers_to_words(text):
+    # Find all numbers in the text using regex
+    numbers = re.findall(r"\d+", text)
+    # Sort numbers in descending order of length
+    sorted_numbers = sorted(numbers, key=len, reverse=True)
+    print(sorted_numbers)
+    # Replace numbers with their word equivalents
+    for number in sorted_numbers:
+        number_word = num2words(int(number))
+        text = text.replace(number, number_word)
+    return text
+def convert_mya_numbers_to_words(text):
+    from mm_num2word import mm_num2word, extract_num
+    numbers = extract_num(text)
+    sorted_numbers = sorted(numbers, key=len, reverse=True)
+    print(sorted_numbers)
+    for n in sorted_numbers:
+        text = text.replace(n, mm_num2word(n))
+    return text
+def prepare_sentences(text, lang="mya"):
+    sentences = []
+    # pre-process the text for some languages
+    if lang.lower() == "mya":
+        text = text.replace("\u104A", ",").replace("\u104B", ".")
+        text = convert_mya_numbers_to_words(text)
+    if lang.lower() == "eng":
+        text = convert_eng_numbers_to_words(text)
+    print("Processed text", text)
+    paragraphs = [paragraph for paragraph in text.split(
+        "\n") if paragraph.strip()]
+    if lang.lower() == "vie":
+        for paragraph in paragraphs:
+            sentences_raw = vie_sent_tokenize(paragraph)
+            sentences.extend(
+                [
+                    vie_text_normalize(sentence)
+                    for sentence in sentences_raw
+                    if sentence.strip()
+                ]
+            )
+    else:
+        sentences = [
+            sentence
+            for paragraph in paragraphs
+            for sentence in nltk_sent_tokenize(paragraph)
+            if sentence.strip()
+        ]
+    return sentences
+def list_dir():
+    # Get the current directory
+    current_dir = os.getcwd()
+    print(current_dir)
+    # List all files in the current directory
+    files = os.listdir(current_dir)
+    # Filter the list to include only WAV files
+    wav_files = [file for file in files if file.endswith(".wav")]
+    # Print the list of WAV files
+    for wav_file in wav_files:
+        print(wav_file)
+def combine_wav(source_dir, stamp):
+    # Get a list of all WAV files in the folder
+    wav_files = [file for file in os.listdir(
+        source_dir) if file.endswith(".wav")]
+    # Sort the files alphabetically to ensure the correct order of combination
+    wav_files.sort()
+    # Combine the WAV files
+    combined_data = []
+    for file in wav_files:
+        file_path = os.path.join(source_dir, file)
+        data, sr = sf.read(file_path)
+        combined_data.extend(data)
+    # Save the combined audio to a new WAV file
+    combined_file_path = f"{stamp}.wav"
+    sf.write(combined_file_path, combined_data, sr)
+    shutil.rmtree(source_dir)
+    list_dir()
+    # Display the combined audio in the Hugging Face Space app
+    return combined_file_path
+def mms_tts(Input_Text, lang_name="Burmese (mya)"):
+    lang_code = lang_codes[lang_name]
+    user_model = download(lang_code, "./data")
+    tts = TTS(user_model)
+    sentences = prepare_sentences(Input_Text, lang_code)
+    # output_dir = f"out_{lang_code}"
+    current_datetime = datetime.datetime.now()
+    timestamp = current_datetime.strftime("%Y%m%d%H%M%S%f")
+    user_dir = f"u_{timestamp}"
+    if os.path.exists(user_dir):
+        session_id = str(uuid.uuid4())  # Generate a random session ID
+        user_dir = f"u_{session_id}_{timestamp}"
+    os.makedirs(user_dir, exist_ok=True)
+    print("New user directory", user_dir)
+    for i, sentence in enumerate(sentences):
+        tts.synthesis(
+            sentence, wav_path=f"{user_dir}/s_{str(i).zfill(10)}.wav")
+    combined_file_path = combine_wav(user_dir, timestamp)
+    return combined_file_path
+# common_languages = ["eng", "mya", "vie"]  # List of common language codes
+iface = gr.Interface(
+    fn=mms_tts,
+    title="Massively Multilingual Speech (MMS) - Text To Speech",
+    description=this_description,
+    inputs=[
+        gr.Textbox(lines=5, placeholder="Enter text to speech",
+                   label="Input text"),
+        gr.Dropdown(
+            choices=language_names, label="Select language 1,000+", value="Burmese (mya)"
+        ),
+    ],
+    outputs="audio",
+)
+# outputs=[
+#         "audio",
+#         gr.File(label="Download", type="file", download_to="done.wav")
+#     ])
+iface.launch()

lang_code.json ADDED Viewed

	@@ -0,0 +1,1114 @@

+{
+    "Burmese": "mya",
+    "Mon": "mnw",
+    "Shan": "shn",
+    "English": "eng",
+    "Vietnamese": "vie",
+    "Thai": "tha",
+    "Thai, Northern": "nod",
+    "Indonesian": "ind",
+    "Khmer": "khm",
+    "Khmer, Northern": "kxm",
+    "Abidji": "abi",
+    "Aceh": "ace",
+    "Achagua": "aca",
+    "Achang": "acn",
+    "Achi": "acr",
+    "Acholi": "ach",
+    "Achuar-Shiwiar": "acu",
+    "Ach\u00e9": "guq",
+    "Adele": "ade",
+    "Adioukrou": "adj",
+    "Agarabi": "agd",
+    "Aghul": "agx",
+    "Agutaynen": "agn",
+    "Ahanta": "aha",
+    "Akan": "aka",
+    "Akateko": "knj",
+    "Akawaio": "ake",
+    "Akeu": "aeu",
+    "Akha": "ahk",
+    "Akoose": "bss",
+    "Alangan": "alj",
+    "Albanian": "sqi",
+    "Altai, Southern": "alt",
+    "Alune": "alp",
+    "Alur": "alz",
+    "Amazigh": "kab",
+    "Ambai": "amk",
+    "Ambrym, North": "mmg",
+    "Amharic": "amh",
+    "Amis": "ami",
+    "Amuzgo, San Pedro Amuzgos": "azg",
+    "Angor": "agg",
+    "Anjam": "boj",
+    "Anufo": "cko",
+    "Anyin": "any",
+    "Arabela": "arl",
+    "Arabic": "ara",
+    "Aralle-Tabulahan": "atq",
+    "Aringa": "luc",
+    "Armenian, Western": "hyw",
+    "Arop-Lokep": "apr",
+    "Arosi": "aia",
+    "Aruamu": "msy",
+    "Ash\u00e1ninka": "cni",
+    "Ash\u00e9ninka, Pajonal": "cjo",
+    "Ash\u00e9ninka, Pichis": "cpu",
+    "Ash\u00e9ninka, Ucayali-Yur\u00faa": "cpb",
+    "Assamese": "asm",
+    "Asu": "asa",
+    "Ateso": "teo",
+    "Atti\u00e9": "ati",
+    "Aukan": "djk",
+    "Avar": "ava",
+    "Avatime": "avn",
+    "Avokaya": "avu",
+    "Awa": "awb",
+    "Awa-Cuaiquer": "kwi",
+    "Awadhi": "awa",
+    "Awaj\u00fan": "agr",
+    "Awakateko": "agu",
+    "Aymara, Central": "ayr",
+    "Ayoreo": "ayo",
+    "Ayta, Abellen": "abp",
+    "Ayta, Mag-Indi": "blx",
+    "Ayta, Mag-antsi": "sgb",
+    "Azerbaijani, North": "azj-script_latin",
+    "Azerbaijani, South": "azb",
+    "Baatonum": "bba",
+    "Bada": "bhz",
+    "Baelelea": "bvc",
+    "Bagheli": "bfy",
+    "Bagri": "bgq",
+    "Bahnar": "bdq",
+    "Baka": "bdh",
+    "Bakhti\u00e2ri": "bqi",
+    "Bakw\u00e9": "bjw",
+    "Balantak": "blz",
+    "Bali": "ban",
+    "Balochi, Southern": "bcc-script_arabic",
+    "Bamanankan": "bam",
+    "Bambam": "ptu",
+    "Bana": "bcw",
+    "Bandial": "bqj",
+    "Bantoanon": "bno",
+    "Barai": "bbb",
+    "Bari": "bfa",
+    "Baruga": "bjz",
+    "Bashkort": "bak",
+    "Basque": "eus",
+    "Bassa": "bsq",
+    "Batak Angkola": "akb",
+    "Batak Dairi": "btd",
+    "Batak Karo": "btx",
+    "Batak Simalungun": "bts",
+    "Batak Toba": "bbc",
+    "Bauzi": "bvz",
+    "Bedjond": "bjv",
+    "Behoa": "bep",
+    "Bekwarra": "bkv",
+    "Belize English Creole": "bzj",
+    "Bemba": "bem",
+    "Benga": "bng",
+    "Bengali": "ben",
+    "Berom": "bom",
+    "Bete-Bendi": "btt",
+    "Bharia": "bha",
+    "Bhatri": "bgw",
+    "Bhattiyali": "bht",
+    "Biali": "beh",
+    "Bidayuh, Bau": "sne",
+    "Bikol, Buhi\u2019non": "ubl",
+    "Bikol, Central": "bcl",
+    "Bimoba": "bim",
+    "Binukid": "bkd",
+    "Binumarien": "bjr",
+    "Birifor, Malba": "bfo",
+    "Birifor, Southern": "biv",
+    "Bisa": "bib",
+    "Bislama": "bis",
+    "Bisu": "bzi",
+    "Bis\u00e3": "bqp",
+    "Blaan, Koronadal": "bpr",
+    "Blaan, Sarangani": "bps",
+    "Bobo Madar\u00e9, Southern": "bwq",
+    "Bodo Parja": "bdv",
+    "Boko": "bqc",
+    "Bokobaru": "bus",
+    "Bola": "bnp",
+    "Bomu": "bmq",
+    "Bonggi": "bdg",
+    "Bora": "boa",
+    "Borong": "ksr",
+    "Bor\u00f4ro": "bor",
+    "Bru, Eastern": "bru",
+    "Buamu": "box",
+    "Buang, Mapos": "bzh",
+    "Bughotu": "bgt",
+    "Buglere": "sab",
+    "Bulgarian": "bul",
+    "Buli": "bwu",
+    "Bum": "bmv",
+    "Bwanabwana": "tte",
+    "Cab\u00e9car": "cjp",
+    "Cacua": "cbv",
+    "Capanahua": "kaq",
+    "Caquinte": "cot",
+    "Carapana": "cbc",
+    "Carib": "car",
+    "Catalan": "cat",
+    "Cebuano": "ceb",
+    "Cerma": "cme",
+    "Chachi": "cbi",
+    "Chamacoco": "ceg",
+    "Chatino, Eastern Highland": "cly",
+    "Chatino, Nopala": "cya",
+    "Chechen": "che",
+    "Chhattisgarhi": "hne",
+    "Chichewa": "nya",
+    "Chidigo": "dig",
+    "Chiduruma": "dug",
+    "Chin, Bawm": "bgr",
+    "Chin, Eastern Khumi": "cek",
+    "Chin, Falam": "cfm",
+    "Chin, Hakha": "cnh",
+    "Chin, Matu": "hlt",
+    "Chin, M\u00fc\u00fcn": "mwq",
+    "Chin, Tedim": "ctd",
+    "Chin, Thado": "tcz",
+    "Chin, Zyphe": "zyp",
+    "Chinantec, Comaltepec": "cco",
+    "Chinantec, Lalana": "cnl",
+    "Chinantec, Lealao": "cle",
+    "Chinantec, Ozumac\u00edn": "chz",
+    "Chinantec, Palantla": "cpa",
+    "Chinantec, Sochiapam": "cso",
+    "Chinantec, Tepetotutla": "cnt",
+    "Chinantec, Usila": "cuc",
+    "Chinese, Hakka": "hak",
+    "Chinese, Min Nan": "nan",
+    "Chingoni": "xnj",
+    "Chipaya": "cap",
+    "Chiquitano": "cax",
+    "Chittagonian": "ctg",
+    "Chol": "ctu",
+    "Chontal, Tabasco": "chf",
+    "Chopi": "cce",
+    "Chorote, Iyojwa\u2019ja": "crt",
+    "Chorote, Iyo\u2019wujwa": "crq",
+    "Chuj": "cac-dialect_sanmateoixtat\u00e1n",
+    "Chukchi": "ckt",
+    "Chumburung": "ncu",
+    "Churahi": "cdj",
+    "Chuvash": "chv",
+    "Ch\u2019orti\u2019": "caa",
+    "Cishingini": "asg",
+    "Cof\u00e1n": "con",
+    "Cora, El Nayar": "crn",
+    "Cora, Santa Teresa": "cok",
+    "Cree, Plains": "crk-script_syllabics",
+    "Crimean Tatar": "crh",
+    "Cuiba": "cui",
+    "Daasanach": "dsh",
+    "Daba": "dbq",
+    "Dagaare, Southern": "dga",
+    "Dagara, Northern": "dgi",
+    "Dagba": "dgk",
+    "Dan": "dnj-dialect_blowowest",
+    "Dangal\u00e9at": "daa",
+    "Dani, Mid Grand Valley": "dnt",
+    "Dani, Western": "dnw",
+    "Dargwa": "dar",
+    "Datooga": "tcc",
+    "Dawro": "dwr",
+    "Dedua": "ded",
+    "Deg": "mzw",
+    "Delo": "ntr",
+    "Dendi": "ddn",
+    "Desano": "des",
+    "Desiya": "dso",
+    "Dhao": "nfa",
+    "Dhimal": "dhi",
+    "Dida, Yocobou\u00e9": "gud",
+    "Didinga": "did",
+    "Digaro-Mishmi": "mhu",
+    "Dinka, Northeastern": "dip",
+    "Dinka, Southwestern": "dik",
+    "Ditammari": "tbz",
+    "Dogon, Toro So": "dts",
+    "Dogos\u00e9": "dos",
+    "Dogri": "dgo",
+    "Duri": "mvp",
+    "Dutch": "nld",
+    "Dza": "jen",
+    "Dzongkha": "dzo",
+    "Ede Idaca": "idd",
+    "Ekajuk": "eka",
+    "Embera Cat\u00edo": "cto",
+    "Ember\u00e1, Northern": "emp",
+    "Enxet": "enx",
+    "Epena": "sja",
+    "Erzya": "myv",
+    "Ese": "mcq",
+    "Ese Ejja": "ese",
+    "Evenki": "evn",
+    "Ezaa": "eza",
+    "Fali, South": "fal",
+    "Faroese": "fao",
+    "Fataleka": "far",
+    "Fijian": "fij",
+    "Finnish": "fin",
+    "Fon": "fon",
+    "Fordata": "frd",
+    "French": "fra",
+    "Fulah": "ful",
+    "Fuliiru": "flr",
+    "Gadaba, Mudhili": "gau",
+    "Gaddi": "gbk",
+    "Gagauz": "gag-script_latin",
+    "Galela": "gbi",
+    "Gamo": "gmv",
+    "Ganda": "lug",
+    "Gapapaiwa": "pwg",
+    "Garhwali": "gbm",
+    "Garifuna": "cab",
+    "Garo": "grt",
+    "Gbaya": "krs",
+    "Gbaya, Southwest": "gso",
+    "Gela": "nlg",
+    "Gen": "gej",
+    "German, Standard": "deu",
+    "Ghari": "gri",
+    "Gikuyu": "kik",
+    "Gikyode": "acd",
+    "Gilaki": "glk",
+    "Gofa": "gof-script_latin",
+    "Gogo": "gog",
+    "Gokana": "gkn",
+    "Gondi, Adilabad": "wsg",
+    "Gonja": "gjn",
+    "Gor": "gqr",
+    "Gorontalo": "gor",
+    "Gourmanch\u00e9ma": "gux",
+    "Grebo, Northern": "gbo",
+    "Greek": "ell",
+    "Greek, Ancient": "grc",
+    "Guahibo": "guh",
+    "Guajaj\u00e1ra": "gub",
+    "Guarani": "grn",
+    "Guarayu": "gyr",
+    "Guayabero": "guo",
+    "Gude": "gde",
+    "Gujarati": "guj",
+    "Gulay": "gvl",
+    "Gumuz": "guk",
+    "Gungu": "rub",
+    "Gwahatike": "dah",
+    "Gwere": "gwr",
+    "Gwich\u2019in": "gwi",
+    "Haitian Creole": "hat",
+    "Halbi": "hlb",
+    "Hamer-Banna": "amf",
+    "Hanga": "hag",
+    "Hanunoo": "hnn",
+    "Haryanvi": "bgc",
+    "Hatam": "had",
+    "Hausa": "hau",
+    "Hawaii Pidgin": "hwc",
+    "Hawu": "hvn",
+    "Haya": "hay",
+    "Hdi": "xed",
+    "Hebrew": "heb",
+    "Hehe": "heh",
+    "Hiligaynon": "hil",
+    "Hindi": "hin",
+    "Hindi, Fiji": "hif",
+    "Hindustani, Sarnami": "hns",
+    "Ho": "hoc",
+    "Holiya": "hoy",
+    "Huastec": "hus-dialect_centralveracruz",
+    "Huave, San Mateo del Mar": "huv",
+    "Huli": "hui",
+    "Hungarian": "hun",
+    "Hupla": "hap",
+    "Iban": "iba",
+    "Icelandic": "isl",
+    "Ida\u2019an": "dbj",
+    "Ifugao, Amganad": "ifa",
+    "Ifugao, Batad": "ifb",
+    "Ifugao, Mayoyao": "ifu",
+    "Ifugao, Tuwali": "ifk",
+    "If\u00e8": "ife",
+    "Ignaciano": "ign",
+    "Ika": "ikk",
+    "Ikwo": "iqw",
+    "Ila": "ilb",
+    "Ilocano": "ilo",
+    "Imbongu": "imo",
+    "Inga": "inb",
+    "Ipili": "ipi",
+    "Iraqw": "irk",
+    "Islander English Creole": "icr",
+    "Itawit": "itv",
+    "Itelmen": "itl",
+    "Ivbie North-Okpela-Arhe": "atg",
+    "Ixil": "ixl-dialect_santamarianebaj",
+    "Iyo": "nca",
+    "Izere": "izr",
+    "Izii": "izz",
+    "Jakalteko": "jac",
+    "Jamaican English Creole": "jam",
+    "Javanese": "jav",
+    "Javanese, Suriname": "jvn",
+    "Jingpho": "kac",
+    "Jola-Fonyi": "dyo",
+    "Jola-Kasa": "csk",
+    "Jopadhola": "adh",
+    "Juang": "jun",
+    "Jukun Takum": "jbu",
+    "Jula": "dyu",
+    "Jur Modo": "bex",
+    "Juray": "juy",
+    "Kaansa": "gna",
+    "Kaapor": "urb",
+    "Kabiy\u00e8": "kbp",
+    "Kabwa": "cwa",
+    "Kadazan Dusun": "dtp",
+    "Kafa": "kbr",
+    "Kagayanen": "cgc",
+    "Kagulu": "kki",
+    "Kaili, Da\u2019a": "kzf",
+    "Kaili, Ledo": "lew",
+    "Kakataibo-Kashibo": "cbr",
+    "Kako": "kkj",
+    "Kakwa": "keo",
+    "Kalagan": "kqe",
+    "Kalanguya": "kak",
+    "Kalinga, Butbut": "kyb",
+    "Kalinga, Lubuagan": "knb",
+    "Kalinga, Majukayang": "kmd",
+    "Kalinga, Tanudan": "kml",
+    "Kallahan, Keley-i": "ify",
+    "Kalmyk-Oirat": "xal",
+    "Kamano": "kbq",
+    "Kamayur\u00e1": "kay",
+    "Kambaata": "ktb",
+    "Kamwe": "hig",
+    "Kandawo": "gam",
+    "Kandozi-Chapra": "cbu",
+    "Kangri": "xnr",
+    "Kanite": "kmu",
+    "Kankanaey": "kne",
+    "Kannada": "kan",
+    "Kanuri, Manga": "kby",
+    "Kapampangan": "pam",
+    "Kaqchikel": "cak-dialect_central",
+    "Karaboro, Eastern": "xrb",
+    "Karachay-Balkar": "krc",
+    "Karakalpak": "kaa",
+    "Karelian": "krl",
+    "Karen, Pwo Northern": "pww",
+    "Kasem": "xsm",
+    "Kashinawa": "cbs",
+    "Kaulong": "pss",
+    "Kawyaw": "kxf",
+    "Kayab\u00ed": "kyz",
+    "Kayah, Western": "kyu",
+    "Kayap\u00f3": "txu",
+    "Kazakh": "kaz",
+    "Kebu": "ndp",
+    "Keliko": "kbo",
+    "Kenga": "kyq",
+    "Kenyang": "ken",
+    "Kera": "ker",
+    "Ketengban": "xte",
+    "Keyagana": "kyg",
+    "Khakas": "kjh",
+    "Khanty": "kca",
+    "Khmu": "kjg",
+    "Kigiryama": "nyf",
+    "Kilivila": "kij",
+    "Kim": "kia",
+    "Kimaragang": "kqr",
+    "Kimr\u00e9": "kqp",
+    "Kinaray-a": "krj",
+    "Kinga": "zga",
+    "Kinyarwanda": "kin",
+    "Kipfokomo": "pkb",
+    "Kire": "geb",
+    "Kiribati": "gil",
+    "Kisar": "kje",
+    "Kisi, Southern": "kss",
+    "Kitharaka": "thk",
+    "Klao": "klu",
+    "Klon": "kyo",
+    "Kogi": "kog",
+    "Kolami, Northwestern": "kfb",
+    "Komi-Zyrian": "kpv",
+    "Konab\u00e9r\u00e9": "bbo",
+    "Konkomba": "xon",
+    "Konni": "kma",
+    "Kono": "kno",
+    "Konso": "kxc",
+    "Koonzime": "ozm",
+    "Koorete": "kqy",
+    "Korean": "kor",
+    "Koreguaje": "coe",
+    "Korupun-Sela": "kpq",
+    "Koryak": "kpy",
+    "Kouya": "kyf",
+    "Koya": "kff-script_telugu",
+    "Krio": "kri",
+    "Kriol": "rop",
+    "Krumen, Plapo": "ktj",
+    "Krumen, Tepo": "ted",
+    "Krung": "krr",
+    "Kuay": "kdt",
+    "Kukele": "kez",
+    "Kulina": "cul",
+    "Kulung": "kle",
+    "Kumam": "kdi",
+    "Kuman": "kue",
+    "Kumyk": "kum",
+    "Kuna, Border": "kvn",
+    "Kuna, San Blas": "cuk",
+    "Kunda": "kdn",
+    "Kuo": "xuo",
+    "Kupia": "key",
+    "Kupsapiiny": "kpz",
+    "Kuranko": "knk",
+    "Kurdish, Northern": "kmr-script_cyrillic",
+    "Kurumba, Alu": "xua",
+    "Kurux": "kru",
+    "Kusaal": "kus",
+    "Kutep": "kub",
+    "Kutu": "kdc",
+    "Kuvi": "kxv",
+    "Kuwaa": "blh",
+    "Kuwaataay": "cwt",
+    "Kwaio": "kwd",
+    "Kwamera": "tnk",
+    "Kwara\u2019ae": "kwf",
+    "Kwere": "cwe",
+    "Kyaka": "kyc",
+    "Kyanga": "tye",
+    "Kyrgyz": "kir",
+    "K\u2019iche\u2019": "quc-dialect_central",
+    "Lacandon": "lac",
+    "Lacid": "lsi",
+    "Ladakhi": "lbj",
+    "Lahu": "lhu",
+    "Lama": "las",
+    "Lamba": "lam",
+    "Lamnso\u2019": "lns",
+    "Lampung Api": "ljp",
+    "Lango": "laj",
+    "Lao": "lao",
+    "Latin": "lat",
+    "Latvian": "lav",
+    "Lauje": "law",
+    "Lawa, Western": "lcp",
+    "Laz": "lzz",
+    "Lele": "lln",
+    "Lelemi": "lef",
+    "Lesser Antillean French Creole": "acf",
+    "Lewo": "lww",
+    "Lhao Vo": "mhx",
+    "Lik": "eip",
+    "Limba, West-Central": "lia",
+    "Limbu": "lif",
+    "Lingao": "onb",
+    "Lisu": "lis",
+    "Lobala": "loq",
+    "Lobi": "lob",
+    "Lokaa": "yaz",
+    "Loko": "lok",
+    "Lole": "llg",
+    "Lolopo": "ycl",
+    "Loma": "lom",
+    "Lomwe": "ngl",
+    "Lomwe, Malawi": "lon",
+    "Luang": "lex",
+    "Lugbara": "lgg",
+    "Luguru": "ruf",
+    "Lukpa": "dop",
+    "Lundayeh": "lnd",
+    "Lutos": "ndy",
+    "Luwo": "lwo",
+    "Ly\u00e9l\u00e9": "lee",
+    "Maan": "mev",
+    "Mabaan": "mfz",
+    "Machame": "jmc",
+    "Macuna": "myy",
+    "Macushi": "mbc",
+    "Mada": "mda",
+    "Madura": "mad",
+    "Magahi": "mag",
+    "Mai Brat": "ayz",
+    "Maithili": "mai",
+    "Maka": "mca",
+    "Makaa": "mcp",
+    "Makasar": "mak",
+    "Makhuwa": "vmw",
+    "Makhuwa-Meetto": "mgh",
+    "Makonde": "kde",
+    "Malagasy": "mlg",
+    "Malay": "zlm",
+    "Malay, Central": "pse",
+    "Malay, Kupang": "mkn",
+    "Malay, Manado": "xmm",
+    "Malayalam": "mal",
+    "Malayic Dayak": "xdy",
+    "Maldivian": "div",
+    "Male": "mdy",
+    "Malvi": "mup",
+    "Mam": "mam-dialect_western",
+    "Mamasa": "mqj",
+    "Mambila, Cameroon": "mcu",
+    "Mambila, Nigeria": "mzk",
+    "Mampruli": "maw",
+    "Mandeali": "mjl",
+    "Mandinka": "mnk",
+    "Mango": "mge",
+    "Mangseng": "mbh",
+    "Mankanya": "knf",
+    "Mannan": "mjv",
+    "Manobo, Matigsalug": "mbt",
+    "Manobo, Obo": "obo",
+    "Manobo, Western Bukidnon": "mbb",
+    "Manya": "mzj",
+    "Mapun": "sjm",
+    "Maranao": "mrw",
+    "Marathi": "mar",
+    "Marba": "mpg",
+    "Mari, Meadow": "mhr",
+    "Markweeta": "enb",
+    "Marshallese": "mah",
+    "Masaaba": "myx",
+    "Maskelynes": "klv",
+    "Matal": "mfh",
+    "Mato": "met",
+    "Matsigenka": "mcb",
+    "Maya, Mop\u00e1n": "mop",
+    "Maya, Yucatec": "yua",
+    "Mayo": "mfy",
+    "Mazahua, Central": "maz",
+    "Mazatec, Ayautla": "vmy",
+    "Mazatec, Chiquihuitl\u00e1n": "maq",
+    "Mazatec, Ixcatl\u00e1n": "mzi",
+    "Mazatec, Jalapa de D\u00edaz": "maj",
+    "Mazatec, San Jer\u00f3nimo Tec\u00f3atl": "maa-dialect_sanjer\u00f3nimo",
+    "Ma\u2019anyan": "mhy",
+    "Ma\u2019di": "mhi",
+    "Mbandja": "zmz",
+    "Mbay": "myb",
+    "Mbore": "gai",
+    "Mbuko": "mqb",
+    "Mbula-Bwazza": "mbu",
+    "Melpa": "med",
+    "Mende": "men",
+    "Mengen": "mee",
+    "Mentawai": "mwv",
+    "Merey": "meq",
+    "Mesme": "zim",
+    "Meta\u2019": "mgo",
+    "Meyah": "mej",
+    "Migabac": "mpp",
+    "Minangkabau": "min",
+    "Misak": "gum",
+    "Misima-Panaeati": "mpx",
+    "Mixe, Coatl\u00e1n": "mco",
+    "Mixe, Juquila": "mxq",
+    "Mixe, Quetzaltepec": "pxm",
+    "Mixe, Totontepec": "mto",
+    "Mixtec, Alacatlatzala": "mim",
+    "Mixtec, Alcozauca": "xta",
+    "Mixtec, Amoltepec": "mbz",
+    "Mixtec, Apasco-Apoala": "mip",
+    "Mixtec, Atatlahuca": "mib",
+    "Mixtec, Ayutla": "miy",
+    "Mixtec, Chayuco": "mih",
+    "Mixtec, Coatzospan": "miz",
+    "Mixtec, Diuxi-Tilantongo": "xtd",
+    "Mixtec, Jamiltepec": "mxt",
+    "Mixtec, Magdalena Pe\u00f1asco": "xtm",
+    "Mixtec, Metlat\u00f3noc": "mxv",
+    "Mixtec, Northern Tlaxiaco": "xtn",
+    "Mixtec, Ocotepec": "mie",
+    "Mixtec, Pe\u00f1oles": "mil",
+    "Mixtec, Pinotepa Nacional": "mio",
+    "Mixtec, Santa Luc\u00eda Monteverde": "mdv",
+    "Mixtec, Santa Mar\u00eda Zacatepec": "mza",
+    "Mixtec, Southern Puebla": "mit",
+    "Mixtec, Tezoatl\u00e1n": "mxb",
+    "Mixtec, Yosond\u00faa": "mpm",
+    "Miyobe": "soy",
+    "Mnong, Central": "cmo-script_khmer",
+    "Moba": "mfq",
+    "Mochi": "old",
+    "Mofu, North": "mfk",
+    "Mofu-Gudur": "mif",
+    "Mokole": "mkl",
+    "Molima": "mox",
+    "Moma": "myl",
+    "Momuna": "mqf",
+    "Mongolian": "mon",
+    "Mongondow": "mog",
+    "Morisyen": "mfe",
+    "Moro": "mor",
+    "Moronene": "mqn",
+    "Moru": "mgd",
+    "Moskona": "mtj",
+    "Mro-Khimi": "cmr",
+    "Mualang": "mtd",
+    "Muinane": "bmr",
+    "Mukulu": "moz",
+    "Mumuye": "mzm",
+    "Muna": "mnb",
+    "Mundani": "mnf",
+    "Mundari": "unr",
+    "Muria, Far Western": "fmu",
+    "Murle": "mur",
+    "Murut, Timugon": "tih",
+    "Muthuvan": "muv",
+    "Muyang": "muy",
+    "Mwaghavul": "sur",
+    "Mwan": "moa",
+    "Mwani": "wmw",
+    "M\u00e9nik": "tnr",
+    "M\u00edskito": "miq",
+    "M\u00f2or\u00e9": "mos",
+    "M\u00fcnd\u00fc": "muh",
+    "Naasioi": "nas",
+    "Nad\u00ebb": "mbj",
+    "Nafaanra": "nfr",
+    "Naga, Kharam": "kfw",
+    "Naga, Tangshang": "nst",
+    "Nagamese": "nag",
+    "Nahuatl, Central Huasteca": "nch",
+    "Nahuatl, Eastern Huasteca": "nhe",
+    "Nahuatl, Guerrero": "ngu",
+    "Nahuatl, Highland Puebla": "azz",
+    "Nahuatl, Isthmus-Mecayapan": "nhx",
+    "Nahuatl, Michoac\u00e1n": "ncl",
+    "Nahuatl, Northern Oaxaca": "nhy",
+    "Nahuatl, Northern Puebla": "ncj",
+    "Nahuatl, Sierra Negra": "nsu",
+    "Nahuatl, Southeastern Puebla": "npl",
+    "Nahuatl, Tlamacazapa": "nuz",
+    "Nahuatl, Western Huasteca": "nhw",
+    "Nahuatl, Zacatl\u00e1n-Ahuacatl\u00e1n-Tepetzintla": "nhi",
+    "Nalca": "nlc",
+    "Nambiku\u00e1ra, Southern": "nab",
+    "Nanai": "gld",
+    "Nande": "nnb",
+    "Napu": "npy",
+    "Nasa": "pbb",
+    "Nateni": "ntm",
+    "Nawdm": "nmz",
+    "Nawuri": "naw",
+    "Naxi": "nxq",
+    "Ndamba": "ndj",
+    "Ndogo": "ndz",
+    "Ndut": "ndv",
+    "Newar": "new",
+    "Ngaju": "nij",
+    "Ngambay": "sba",
+    "Ngangam": "gng",
+    "Ngbaka": "nga",
+    "Ngindo": "nnq",
+    "Ngulu": "ngp",
+    "Ng\u00e4bere": "gym",
+    "Ng\u2019akarimojong": "kdj",
+    "Nias": "nia",
+    "Nilamba": "nim",
+    "Ninzo": "nin",
+    "Nkonya": "nko",
+    "Nogai": "nog",
+    "Nomaande": "lem",
+    "Nomatsigenga": "not",
+    "Noone": "nhu",
+    "Ntcham": "bud",
+    "Nuer": "nus",
+    "Nugunu": "yas",
+    "Nuni, Southern": "nnw",
+    "Nyabwa": "nwb",
+    "Nyakyusa-Ngonde": "nyy",
+    "Nyankore": "nyn",
+    "Nyaturu": "rim",
+    "Nyindrou": "lid",
+    "Nyole": "nuj",
+    "Nyoro": "nyo",
+    "Nzema": "nzi",
+    "Obolo": "ann",
+    "Odia": "ory",
+    "Ojibwa, Northwestern": "ojb-script_syllabics",
+    "Oku": "oku",
+    "Oniyan": "bsc",
+    "Oroko": "bdu",
+    "Oromo": "orm",
+    "Orya": "ury",
+    "Ossetic": "oss",
+    "Otomi, Mezquital": "ote",
+    "Otomi, Quer\u00e9taro": "otq",
+    "Owa": "stn",
+    "Paasaal": "sig",
+    "Pahari, Kullu": "kfx",
+    "Pahari, Mahasu": "bfz",
+    "Paicoca": "sey",
+    "Paiute, Northern": "pao",
+    "Palauan": "pau",
+    "Palaung, Ruching": "pce",
+    "Palawano, Brooke\u2019s Point": "plw",
+    "Pamona": "pmf",
+    "Pangasinan": "pag",
+    "Papiamentu": "pap",
+    "Paranan": "prf",
+    "Parec\u00eds": "pab",
+    "Parkwa": "pbi",
+    "Patamona": "pbc",
+    "Paumar\u00ed": "pad",
+    "Pele-Ata": "ata",
+    "Penan, Eastern": "pez",
+    "Pengo": "peg",
+    "Persian": "fas",
+    "Pidgin, Nigerian": "pcm",
+    "Pijin": "pis",
+    "Pinyin": "pny",
+    "Piratapuyo": "pir",
+    "Pitjantjatjara": "pjt",
+    "Pogolo": "poy",
+    "Polish": "pol",
+    "Popoloca, San Lu\u00eds Temalacayuca": "pps",
+    "Popoloca, San Marcos Tlacoyalco": "pls",
+    "Popoluca, Highland": "poi",
+    "Poqomchi\u2019": "poh-dialect_western",
+    "Portuguese": "por",
+    "Prai": "prt",
+    "Puinave": "pui",
+    "Punjabi, Eastern": "pan",
+    "Purepecha": "tsz",
+    "Puroik": "suv",
+    "P\u00e9v\u00e9": "lme",
+    "Quechua, Ayacucho": "quy",
+    "Quechua, Cajamarca": "qvc",
+    "Quechua, Cusco": "quz",
+    "Quechua, Eastern Apur\u00edmac": "qve",
+    "Quechua, Huallaga": "qub",
+    "Quechua, Huamal\u00edes-Dos de Mayo Hu\u00e1nuco": "qvh",
+    "Quechua, Huaylas Ancash": "qwh",
+    "Quechua, Huaylla Wanca": "qvw",
+    "Quechua, Lambayeque": "quf",
+    "Quechua, Margos-Yarowilca-Lauricocha": "qvm",
+    "Quechua, North Bolivian": "qul",
+    "Quechua, North Jun\u00edn": "qvn",
+    "Quechua, Northern Conchucos Ancash": "qxn",
+    "Quechua, Panao": "qxh",
+    "Quechua, San Mart\u00edn": "qvs",
+    "Quechua, South Bolivian": "quh",
+    "Quechua, Southern Conchucos": "qxo",
+    "Quichua, Ca\u00f1ar Highland": "qxr",
+    "Quichua, Napo": "qvo",
+    "Quichua, Northern Pastaza": "qvz",
+    "Quichua, Salasaca Highland": "qxl",
+    "Quichua, Tena Lowland": "quw",
+    "Q\u2019anjob\u2019al": "kjb",
+    "Q\u2019eqchi\u2019": "kek",
+    "Rabha": "rah",
+    "Rajbanshi": "rjs",
+    "Ramoaaina": "rai",
+    "Rampi": "lje",
+    "Ranglong": "rnl",
+    "Rangpuri": "rkt",
+    "Rapa Nui": "rap",
+    "Ravula": "yea",
+    "Rawang": "raw",
+    "Rejang": "rej",
+    "Rendille": "rel",
+    "Riang Lang": "ril",
+    "Rigwe": "iri",
+    "Rikou": "rgu",
+    "Rohingya": "rhg",
+    "Romani, Carpathian": "rmc-script_cyrillic",
+    "Romani, Sinte": "rmo",
+    "Romani, Vlax": "rmy-script_cyrillic",
+    "Romanian": "ron",
+    "Romblomanon": "rol",
+    "Ron": "cla",
+    "Ronga": "rng",
+    "Roviana": "rug",
+    "Rundi": "run",
+    "Russian": "rus",
+    "Saamya-Gwe": "lsm",
+    "Sabaot": "spy",
+    "Sadri": "sck",
+    "Sahu": "saj",
+    "Sakachep": "sch",
+    "Sama, Central": "sml",
+    "Sambal": "xsb",
+    "Sambal, Botolan": "sbl",
+    "Samburu": "saq",
+    "Samo, Southern": "sbd",
+    "Samoan": "smo",
+    "Sampang": "rav",
+    "Sangir": "sxn",
+    "Sango": "sag",
+    "Sangu": "sbp",
+    "Sanum\u00e1": "xsu",
+    "Saramaccan": "srm",
+    "Sasak": "sas",
+    "Sa\u2019a": "apb",
+    "Sebat Bet Gurage": "sgw",
+    "Sedoa": "tvw",
+    "Sekpele": "lip",
+    "Selaru": "slu",
+    "Selee": "snw",
+    "Semai": "sea",
+    "Semelai": "sza",
+    "Sena": "seh",
+    "Seychelles French Creole": "crs",
+    "Shambala": "ksb",
+    "Shanga": "sho",
+    "Sharanahua": "mcd",
+    "Shawi": "cbt",
+    "Sherpa": "xsr",
+    "Shilluk": "shk",
+    "Shipibo-Conibo": "shp",
+    "Shona": "sna",
+    "Shor": "cjs",
+    "Shuar": "jiv",
+    "Siane": "snp",
+    "Siang": "sya",
+    "Sidamo": "sid",
+    "Siona": "snn",
+    "Siriano": "sri",
+    "Sirmauri": "srx",
+    "Sisaala, Tumulung": "sil",
+    "Sissala": "sld",
+    "Siwu": "akp",
+    "Soga": "xog",
+    "Somali": "som",
+    "Somba-Siawari": "bmu",
+    "Songhay, Koyra Chiini": "khq",
+    "Songhay, Koyraboro Senni": "ses",
+    "Sougb": "mnx",
+    "Spanish": "spa",
+    "Sranan Tongo": "srn",
+    "Suba": "sxb",
+    "Subanon, Western": "suc",
+    "Sudest": "tgo",
+    "Sukuma": "suk",
+    "Sunda": "sun",
+    "Sunwar": "suz",
+    "Surgujia": "sgj",
+    "Susu": "sus",
+    "Swahili": "swh",
+    "Swedish": "swe",
+    "Sylheti": "syl",
+    "S\u00e9noufo, Djimini": "dyi",
+    "S\u00e9noufo, Mamara": "myk",
+    "S\u00e9noufo, Supyire": "spp",
+    "Taabwa": "tap",
+    "Tabaru": "tby",
+    "Tacana": "tna",
+    "Tachelhit": "shi",
+    "Tado": "klw",
+    "Tagalog": "tgl",
+    "Tagbanwa, Calamian": "tbk",
+    "Tagin": "tgj",
+    "Tai Dam": "blt",
+    "Tairora, North": "tbg",
+    "Tairora, South": "omw",
+    "Tajik": "tgk",
+    "Tajio": "tdj",
+    "Takia": "tbc",
+    "Talinga-Bwisi": "tlj",
+    "Talysh": "tly",
+    "Tamajaq, Tawallammat": "ttq-script_tifinagh",
+    "Tamang, Eastern": "taj",
+    "Tamasheq": "taq",
+    "Tamil": "tam",
+    "Tampulma": "tpm",
+    "Tangoa": "tgp",
+    "Tanna, North": "tnn",
+    "Tarahumara, Western": "tac",
+    "Tarifit": "rif-script_arabic",
+    "Tatar": "tat",
+    "Tatuyo": "tav",
+    "Tawbuid": "twb",
+    "Tboli": "tbl",
+    "Tehit": "kps",
+    "Teiwa": "twe",
+    "Tektiteko": "ttc",
+    "Telugu": "tel",
+    "Tem": "kdh",
+    "Tengger": "tes",
+    "Tennet": "tex",
+    "Tepehua, Huehuetla": "tee",
+    "Tepehua, Pisaflores": "tpp",
+    "Tepehua, Tlachichilco": "tpt",
+    "Tepehuan, Southeastern": "stp",
+    "Teribe": "tfr",
+    "Termanu": "twu",
+    "Ter\u00eana": "ter",
+    "Tewa": "tew",
+    "Tharu, Dangaura": "thl",
+    "Themne": "tem",
+    "Tibetan, Amdo": "adx",
+    "Tibetan, Central": "bod",
+    "Tibetan, Khams": "khg",
+    "Ticuna": "tca",
+    "Tigrigna": "tir",
+    "Tii": "txq",
+    "Tikar": "tik",
+    "Tlicho": "dgr",
+    "Toba": "tob",
+    "Toba-Maskoy": "tmf",
+    "Tobanga": "tng",
+    "Tobelo": "tlb",
+    "Tohono O\u2019odham": "ood",
+    "Tok Pisin": "tpi",
+    "Tol": "jic",
+    "Tolaki": "lbw",
+    "Tombonuo": "txa",
+    "Tombulu": "tom",
+    "Tonga": "toh",
+    "Tontemboan": "tnt",
+    "Toraja-Sa\u2019dan": "sda",
+    "Torres Strait Creole": "tcs",
+    "Totonac, Coyutla": "toc",
+    "Totonac, Highland": "tos",
+    "Toura": "neb",
+    "Trinitario": "trn",
+    "Triqui, Chicahuaxtla": "trs",
+    "Triqui, Copala": "trc",
+    "Tri\u00f3": "tri",
+    "Tsafiki": "cof",
+    "Tsakhur": "tkr",
+    "Tsikimba": "kdl",
+    "Tsiman\u00e9": "cas",
+    "Tsonga": "tso",
+    "Tucano": "tuo",
+    "Tuma-Irumu": "iou",
+    "Tumak": "tmc",
+    "Tunebo, Central": "tuf",
+    "Turkish": "tur",
+    "Turkmen": "tuk-script_arabic",
+    "Tuwuli": "bov",
+    "Tuyuca": "tue",
+    "Tyap": "kcg",
+    "Tzeltal": "tzh-dialect_tenejapa",
+    "Tzotzil": "tzo-dialect_chamula",
+    "Tz\u2019utujil": "tzj-dialect_eastern",
+    "Uab Meto": "aoz",
+    "Udmurt": "udm",
+    "Uduk": "udu",
+    "Ukrainian": "ukr",
+    "Uma": "ppk",
+    "Umbu-Ungu": "ubu",
+    "Urak Lawoi\u2019": "urk",
+    "Urarina": "ura",
+    "Urat": "urt",
+    "Urdu": "urd-script_latin",
+    "Uripiv-Wala-Rano-Atchin": "upv",
+    "Uspanteko": "usp",
+    "Uyghur": "uig-script_cyrillic",
+    "Uzbek": "uzb-script_cyrillic",
+    "Vagla": "vag",
+    "Vengo": "bav",
+    "Vidunda": "vid",
+    "Vili": "vif",
+    "Vunjo": "vun",
+    "Vute": "vut",
+    "Wa, Parauk": "prk",
+    "Waama": "wwa",
+    "Waima": "rro",
+    "Waimaha": "bao",
+    "Waiwai": "waw",
+    "Wala": "lgl",
+    "Wali": "wlx",
+    "Wamey": "cou",
+    "Wamp\u00eds": "hub",
+    "Wanano": "gvc",
+    "Wandala": "mfi",
+    "Wapishana": "wap",
+    "Warao": "wba",
+    "Waray-Waray": "war",
+    "Wayana": "way",
+    "Wayuu": "guc",
+    "Welsh": "cym",
+    "Wersing": "kvw",
+    "Whitesands": "tnp",
+    "Witoto, Minika": "hto",
+    "Witoto, Murui": "huu",
+    "Wolaytta": "wal-script_ethiopic",
+    "Wolio": "wlo",
+    "Woun Meu": "noa",
+    "W\u00e8 Northern": "wob",
+    "Xaasongaxango": "kao",
+    "Xer\u00e9nte": "xer",
+    "Yagua": "yad",
+    "Yakan": "yka",
+    "Yakut": "sah",
+    "Yala": "yba",
+    "Yali, Angguruk": "yli",
+    "Yali, Ninia": "nlk",
+    "Yalunka": "yal",
+    "Yamba": "yam",
+    "Yambeta": "yat",
+    "Yamdena": "jmd",
+    "Yami": "tao",
+    "Yaminahua": "yaa",
+    "Yanesha\u2019": "ame",
+    "Yanomam\u00f6": "guu",
+    "Yao": "yao",
+    "Yaour\u00e9": "yre",
+    "Yawa": "yva",
+    "Yemba": "ybb",
+    "Yine": "pib",
+    "Yipma": "byr",
+    "Yom": "pil",
+    "Yoruba": "yor",
+    "Yucuna": "ycn",
+    "Yupik, Saint Lawrence Island": "ess",
+    "Yuracare": "yuz",
+    "Zaiwa": "atb",
+    "Zande": "zne",
+    "Zapotec, Alo\u00e1pam": "zaq",
+    "Zapotec, Amatl\u00e1n": "zpo",
+    "Zapotec, Cajonos": "zad",
+    "Zapotec, Choapan": "zpc",
+    "Zapotec, Coatecas Altas": "zca",
+    "Zapotec, Guevea de Humboldt": "zpg",
+    "Zapotec, Isthmus": "zai",
+    "Zapotec, Lachix\u00edo": "zpl",
+    "Zapotec, Miahuatl\u00e1n": "zam",
+    "Zapotec, Mitla": "zaw",
+    "Zapotec, Mixtepec": "zpm",
+    "Zapotec, Ocotl\u00e1n": "zac",
+    "Zapotec, Ozolotepec": "zao",
+    "Zapotec, Quioquitani-Quier\u00ed": "ztq",
+    "Zapotec, Rinc\u00f3n": "zar",
+    "Zapotec, San Vicente Coatl\u00e1n": "zpt",
+    "Zapotec, Santa Mar\u00eda Quiegolani": "zpi",
+    "Zapotec, Santo Domingo Albarradas": "zas",
+    "Zapotec, Sierra de Ju\u00e1rez": "zaa",
+    "Zapotec, Texmelucan": "zpz",
+    "Zapotec, Western Tlacolula Valley": "zab",
+    "Zapotec, Yal\u00e1lag": "zpu",
+    "Zapotec, Yareni": "zae",
+    "Zapotec, Yatee": "zty",
+    "Zapotec, Yatzachi": "zav",
+    "Zaza": "zza",
+    "Zhuang, Yongbei": "zyb",
+    "Zigula": "ziw",
+    "Zoque, Francisco Le\u00f3n": "zos",
+    "Zulgo-Gemzek": "gnd",
+    "\u00c9w\u00e9": "ewe"
+}

mm_num2word.py ADDED Viewed

	@@ -0,0 +1,142 @@

+"""
+This file is adapted from https://github.com/hpbyte/Myanmar_Number_to_Words
+"""
+import re
+mm_digit = {
+    "၀": "သုည",
+    "၁": "တစ်",
+    "၂": "နှစ်",
+    "၃": "သုံ:",
+    "၄": "လေ:",
+    "၅": "ငါ:",
+    "၆": "ခြောက်",
+    "၇": "ခုနှစ်",
+    "၈": "ရှစ်",
+    "၉": "ကို:",
+}
+# regular expressions
+rgxPh = "^(၀၁|၀၉)"
+rgxDate = "[၀-၉]{1,2}-[၀-၉]{1,2}-[၀-၉]{4}|[၀-၉]{1,2}\/[၀-၉]{1,2}\/[၀-၉]{4}"
+rgxTime = "[၀-၉]{1,2}:[၀-၉]{1,2}"
+rgxDec = "[၀-၉]*\.[၀-၉]*"
+rgxAmt = "[,၀-၉]+"
+def convert_digit(num):
+    """
+    @type     num   str
+    @param    num   Myanmar number
+    @rtype          str
+    @return         converted Myanmar spoken words
+    """
+    converted = ""
+    nb_digits = len(num)
+    def check_if_zero(pos):
+        return not num[-pos] == "၀"
+    def hundred_thousandth_val():
+        n = num[:-5]
+        return (
+            ("သိန်: " + mm_num2word(n))
+            if (n[-2:] == "၀၀")
+            else (mm_num2word(n) + "သိန်: ")
+        )
+    def thousandth_val():
+        return mm_digit[num[-4]] + ("ထောင် " if (num[-3:] == "၀၀၀") else "ထောင့် ")
+    def hundredth_val():
+        return mm_digit[num[-3]] + (
+            "ရာ့ "
+            if (
+                (num[-2] == "၀" and re.match(r"[၁-၉]", num[-1]))
+                or (re.match(r"[၁-၉]", num[-2]) and num[-1] == "၀")
+            )
+            else "ရာ "
+        )
+    def tenth_val():
+        return ("" if (num[-2] == "၁") else mm_digit[num[-2]]) + (
+            "ဆယ် " if (num[-1] == "၀") else "ဆယ့် "
+        )
+    if nb_digits > 5:
+        converted += hundred_thousandth_val()
+    if (nb_digits > 4) and check_if_zero(5):
+        converted += mm_digit[num[-5]] + "သောင်: "
+    if (nb_digits > 3) and check_if_zero(4):
+        converted += thousandth_val()
+    if (nb_digits > 2) and check_if_zero(3):
+        converted += hundredth_val()
+    if (nb_digits > 1) and check_if_zero(2):
+        converted += tenth_val()
+    if (nb_digits > 0) and check_if_zero(1):
+        converted += mm_digit[num[-1]]
+    return converted
+def mm_num2word(num):
+    """
+    Detect type of number and convert accordingly
+    @type     num   str
+    @param    num   Myanmar number
+    @rtype          str
+    @return         converted Myanmar spoken words
+    """
+    word = ""
+    # phone number
+    if re.match(r"" + rgxPh, num[:2]):
+        word = " ".join([(mm_digit[d] if not d == "၇" else "ခွန်") for d in num])
+    # date
+    elif re.match(r"" + rgxDate, num):
+        n = re.split(r"-|/", num)
+        word = (
+            convert_digit(n[-1])
+            + " ခုနှစ် "
+            + convert_digit(n[1])
+            + " လပိုင်: "
+            + convert_digit(n[0])
+            + " ရက်"
+        )
+    # time
+    elif re.match(r"" + rgxTime, num):
+        n = re.split(r":", num)
+        word = (convert_digit(n[0]) + " နာရီ ") + (
+            "ခွဲ" if (n[1] == "၃၀") else (convert_digit(n[1]) + " မိနစ်")
+        )
+    # decimal
+    elif re.match(r"" + rgxDec, num):
+        n = re.split(r"\.", num)
+        word = convert_digit(n[0]) + " ဒဿမ " + " ".join([mm_digit[d] for d in n[1]])
+    # amount
+    elif re.match(r"" + rgxAmt, num):
+        word = convert_digit(num.replace(",", ""))
+    # default
+    else:
+        raise Exception("Cannot convert the provided number format!")
+    return word
+def extract_num(S):
+    """
+    Extract numbers from the input string
+    @type     S   str
+    @param    S   Myanmar sentence
+    @rtype        list
+    @return       a list of Myanmar numbers
+    """
+    matchedNums = re.compile(
+        "%s|%s|%s|%s" % (rgxDate, rgxTime, rgxDec, rgxAmt)
+    ).findall(S)
+    return matchedNums

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+ttsmms
+underthesea
+nltk
+soundfile
+num2words