当我们熟悉了re和Requests两个模块,就可以开始愉快的数据采集之旅了,我们先为自己找一些需要采集的数据,比如股票价格数据、新闻或是美女图片等,只要你喜欢。
数据采集第一步,加载数据源。
这里我假设自己一个工作繁忙兼职炒股股市老手,工作的同时经常需要查看股市行情,但是又不能总盯着炒股软件,这个时候为自己做一个简单的股票数据采集器是个不错的选择。
import re, requests # 加载所需模块
r = requests.get('http://hq.sinajs.cn/list=s_sh000001') #互联网上市公司股票价格
r.encoding = 'gbk'# 设置编码 解决乱码问题
print(r.text) #返回html代码(数据)
通过上边的代码运行之后我们会得到一组数据:
var hq_str_s_sh000001="上证指数,3367.1194,6.3091,0.19,2824975,31372209";
数据含义分别为:指数名称,当前点数,当前价格,涨跌率,成交量(手),成交额(万元);
这样我们只要提示自己需要的上证指数,3367.1194,6.3091,0.19,2824975,31372209
这段数据后,就可以把它转换成自己需要的对象,然后处理打印。
数据采集第二步,解析数据,提取我们自己需要的。
s = r.text # 获取数据
p = r'"(.+)"' #设置正则表达式
r = re.search(p, s).group(1) #匹配并获取结果字符串
print(r)
ls = r.split(',')
print(ls)
数据采集第三步,处理最后的打印
print('''{}:{}
当前价格:{}
涨跌率:{}
成交量(手):{}
成交额(万元):{}'''.format(ls[0],ls[1],ls[2],ls[3],ls[4],ls[5])
)
#最后输出:
#上证指数:3367.1194
#当前价格:6.3091
#涨跌率:0.19
#成交量(手):2824975
#成交额(万元):31372209
得到以上结果之后,我们就可以通过很多方法来通知自己查看大盘点数(发邮件,直接通过一个网址查看或是短信),了解股市行情了。具体实现这里暂时不做讲解,因为超出当前教程的范围。