SciKG是一个以科研为中心的大规模知识图谱,目前包含计算机科学领域,由概念、专家和论文组成。
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。
BoolQ是一个包含15942个示例的是/否问题的问题回答数据集。 这些问题是自然发生的-它们是在无提示且不受约束的环境中生成的。
通过使用手持手机拍照,而骑自行车录制视频创建。
该数据集包含大约650,000个机器人抓取尝试的示例。
为了在模拟中训练机器人的抓地力和其他任务,随机生成的3D模型对象。
包含275个COVID-19检测呈阳性的CT图像,有助于使用深度学习方法分析病人的CT图像并预测其是否患有新冠的相关研究和发展。
平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。