GigaSpeech:10000小时多领域英语开源数据集发布

近日,我院AI大数据中心协同清华语音与音频技术实验室成功发布全球最大多领域英语开源GigaSpeech数据集。欢迎“让语音技术更易于使用”的志愿者或从业者与我们一起合作与贡献!

语音识别的性能,很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄,缺少难度挑战,准确率接近饱和。学术界和工业界研究开始分道扬镳,碎片化严重。作为目前全球最大的多领域英语开源数据集,GigaSpeech致力于推动学术界和产业界的共同进步。

01

概述

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督和无监督训练任务。

本竞赛邀请学界和业界同仁基于主办方前期口语识别AD的研究基础上,发掘基于口语数据判别AD、MCI或正常人的方法,为健康中国贡献力量。

02

数据来源及质量控制

从发音风格和覆盖主题入手,GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频,以及对应的人工转录文本、人工字幕等,涵盖诵读和自发口语等一系列不同风格,以及艺术、科学、体育等多种主题。

音频来源标注小时数总小时数声学条件
有声读物2,65511,982朗读;不同性别、年龄、口音
播客3,4989,254干净或带背景音乐;室内;近场;自发口语;不同性别、年龄、口音
Youtube3,84511,768干净或带噪;室内、室外;近场、远场;朗读、口语;不同性别、年龄、口音
总计10,00033,005 

在质量控制上,GigaSpeech提供一种新的强制对齐和分段处理pipeline工具,以创建适合ASR训练的句子段,并滤除低质量转录片段。对于有监督训练任务,GigaSpeech提供了5个不同规模的子集。在过滤验证环节,最大训练子集的词错误率控制在4%以下;其它较小规模的子集的词错误率控制在0%。

03

适用于有监督训练任务的数据子集详情

GigaSpeech提供了10小时、250小时、1000小时、2500小时和10000小时等5个不同规模的子集,以适用于有监督训练任务。详情如下表所示:

数据子集小时数适用任务类型
XS10System building and debugging
S250Quick research experiments
M1,000Large-scale research experiments
L2,500Medium-scale industrial experiments
XL10,000Large-scale industrial experiments

04

开发集和测试集

数据子集小时数说明
Dev12Randomly selected from the crawled Podcast and YouTube Data
Test40Part of the subset was randomly selected from the crawled Podcast and YouTube data; part of it was manually collected through other channels to have better coverage.

05

排行榜

为方便使用,GIgaSpeech为主流的ASR框架提供了baseline的训练脚本,并开放leaderboard排行榜,目前提供的系统包括Athena、Espnet、Kaldi、Pika、WeNet,后续还将继续更新与完善。

工具集系统链接地址Dev/Test WER
AthenaTransformer-AED + RNNLMhttps://github.com/athena-team/athena/tree/master/examples/asr/gigaspeech13.60 / 12.70
EspnetConformer/Transformer-AEDhttps://github.com/espnet/espnet/tree/master/egs2/gigaspeech/asr110.90 / 10.80
KaldiChain + RNNLMhttps://github.com/kaldi-asr/kaldi/tree/master/egs/gigaspeech/s514.78 / 14.84
PikaRNN-Thttps://github.com/tencent-ailab/pika/tree/12.30 / 12.30
WeNetConformer-AEDhttps://github.com/wenet-e2e/wenet/tree/main/examples/gigaspeech/s011.00 / 10.90

06

使用申请入口

GigaSpeech数据集已开放,欢迎大家使用。
申请入口:
https://forms.gle/UuGQAPyscGRrUMLq6
更多细节,请访问github链接:
https://github.com/SpeechColab/GigaSpeech
预印版论文地址(已被InterSpeech 2021接收):
https://arxiv.org/abs/2106.06909

07

进一步合作

我们是一群试图让语音技术更易于使用的志愿者,欢迎各种形式的合作与贡献。目前我们正在探索以下方向,如果您对某些方向感兴趣,并且认为自己能够提供帮助,请联系 gigaspeech@speechcolab.org。

  • 不同预训练模型的推理架构
  • 增加多样化的数据来源
  • 对语音算法/服务进行基准测试
  • 构建和发布预训练模型
  • 支持更多语言
  • 支持更多任务(例如说话人识别等)
  • 制作新数据集

08

发起人