VoxCeleb是一个视听数据集,由从上传到YouTube的采访视频中提取的人类语音短片组成。
VoxCeleb是一个视听数据集,由从上传到YouTube的采访视频中提取的人类语音短片组成。
VoxCeleb1包含超过100,000个针对1,251个名人的话语,这些话语是从上传到YouTube的视频中提取的。
| 发音人数量 | 1251 |
| 视频数量 | 21,245 |
| 音频数量 | 145265 |