TIMIT(英语:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和SRI International合作构建的声学-音素连续语音语料库。

简介

TIMIT(英语:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和SRI International合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。1

语料库

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为 "body of text"。23

语料库列表多语

点通多语言语音语料库

宾州大学语料库

Wikipedia XML 语料库

英文

Collin's Cobuild Project - 成果:Collin's当代英语辞典、及当代英语文法。

中文

中央研究院平衡语料库

LIVAC汉语共时语料库

北京大学语料库

兰开斯特大学汉语平衡语料库

兰开斯特-洛杉矶汉语口语语料库

语料库语言学在线

北京森林工作室汉语句义结构标注语料库

参见

万能翻译机

电脑语言学

受限自然语言

信息抽取

资讯检索

自然语言理解

潜在语义索引

潜在语义学

随机文法

机器记者

写作自动评分

生物医学文件探勘系统

本词条内容贡献者为:

李嘉骞 - 博士 - 同济大学

TIMIT

图文简介

TIMIT(英语:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和SRI International合作构建的声学-音素连续语音语料库。