博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据集
阅读量:4361 次
发布时间:2019-06-07

本文共 860 字,大约阅读时间需要 2 分钟。

下面就介绍一些获取数据的方法:

1 爬虫

最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。

但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。

跟着下面这个教程可以很快的实现一个强大的爬虫:

CSDN 爬虫教程

http://blog.csdn.net/u012052268/article/category/6889435

2 数据平台

国内一些机构贡献了一些数据集出来,大家可以在上面下载。

2.1 数据堂

数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/

2.2 搜狗实验室

搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
http://www.sogou.com/labs/

2.3 自然语言处理与信息检索共享平台

是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
http://www.nlpir.org/?action-category-catid-28

2.4 聚数力

http://dataju.cn/Dataju/web/home

3 人工收集的

这是几个博主自己总结的,质量很高。

https://zhuanlan.zhihu.com/p/25138563

https://www.zhihu.com/question/53655758/answer/146351918

https://www.douban.com/note/269081724/

---------------------
作者:最小森林
来源:CSDN
原文:https://blog.csdn.net/u012052268/article/details/78035272
版权声明:本文为博主原创文章,转载请附上博文链接!

转载于:https://www.cnblogs.com/fengwenit/p/10365549.html

你可能感兴趣的文章
类的内置方法
查看>>
世界是数字的 读后感
查看>>
算法项目步骤流程
查看>>
POJ 2942 Knights of the Round Table ★(点双连通分量+二分图判定)
查看>>
10.scheam.xml的配置
查看>>
Android Studio 生成aar包多Module引用问题
查看>>
hdu--1540 Tunnel Warfare(线段树+区间合并)
查看>>
通过命令给Linux(CentOS)分区
查看>>
Sprint1规划暨first stand up meeting
查看>>
python接口自动化3-自动发帖(session)
查看>>
复杂问题的简单抽象:魔兽世界中的兔子们
查看>>
那些美到极致的语言!
查看>>
Xamarin的不归路-ios模拟器没有键盘
查看>>
【云笔记】群晖DS218+ NoteStation 折腾
查看>>
jdk安装配置
查看>>
四、RocketMq简单的消费者和生产者(示例代码)
查看>>
json介绍
查看>>
Maven编译unmappable character for encoding Cp1252问题
查看>>
xftp上传文件失败,执行程序发现磁盘满了:No space left on device
查看>>
duplicate symbols for architecture i386 问题?
查看>>