排序方式:默认,数量:49
Twitter情感分析训练语料库

Twitter情感分析训练语料库

Twitter Sentiment Analysis Training Corpus (Dataset)
7650 53.8MB

该情感分析数据集 包含1,578,627条分类推文,每行标记为1表示积极情绪,0表示负面情绪。

2019-06-29 (58月前) 免积分下载
多领域情感评论文本数据集

多领域情感评论文本数据集

Multi-Domain Sentiment Dataset
5722 1.5GB

多领域情感数据集包含从Amazon.com获取的部分产品评论,评论包含星级(1至5星)。

2019-06-29 (58月前) 免积分下载
Euler图学习开源数据集

Euler图学习开源数据集

euler raw graph data
6045 243.41MB

Euler图学习平台自研算法对应的开源图数据与样本数据

2019-01-24 (63月前) 免积分下载
开放信息提取语料库(OPIEC)

开放信息提取语料库(OPIEC)

OPIEC
3794 ~67 GB

OPIEC是一个开放信息提取(OIE)语料库,由整个英语维基百科构建而成。它包含超过3.41亿个三元组。

2019-12-16 (52月前) 免积分下载
包含多个的文本分类数据集

包含多个的文本分类数据集

Text Classification Datasets
3413

包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG

2020-11-30 (41月前) 免积分下载
Quora 问答数据集

Quora 问答数据集

quora-question-pairs
4757 499 MB

美国知识问答网站 Quora 上的问题答案数据集,可用以进行重复问题检测。

2020-06-23 (46月前) 免积分下载
百度实体标注数据集

百度实体标注数据集

Baidu entity annotation data set
3465 101MB

一个大规模的中文短文本语料库,用于实体识别和链接任务。BEL包含100K注释的短文本,以及对应于百度知识库中的实体的提及和链接。

2019-11-09 (53月前) 免积分下载
全网新闻数据(SogouCA) 2012版

全网新闻数据(SogouCA) 2012版

全网新闻数据(SogouCA) 2012版
6726

搜狗实验室提供,来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。

2018-10-13 (66月前) 免积分下载
AI2推理挑战赛(ARC)2018数据集

AI2推理挑战赛(ARC)2018数据集

ARC2018
3643

ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选项结构。

2020-03-29 (49月前) 免积分下载
安然公司邮件数据集

安然公司邮件数据集

Enron Email Dataset
7131 1.70 Gb

Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。

2019-04-10 (60月前) 免积分下载
谷歌AI自然语言对话数据集Taskmaster-1

谷歌AI自然语言对话数据集Taskmaster-1

Taskmaster-1
3225 80MB

包含 7708 个书面表达以及 5507 个口语表达数据。该数据集内容覆盖了六个生活领域,包括:订购披萨,创建汽车维修预约,设置租车,订购电影票,订购咖啡饮料和预订餐厅。

2019-09-11 (55月前) 免积分下载
10W+知乎用户数据集

10W+知乎用户数据集

10w zhihu user dataset
4477 204.6 MB

来自北京大学开放研究数据平台,利用scrapy作为工具,爬取了知乎平台上十万余条用户个人主页数据,涵盖了用户性别、所在地、个性签名等多项属性。

2020-03-29 (49月前) 免积分下载
共 5 页,当前第 1 页。