前几天有个网友给了我一个API的接口,这个接口返回了大量的中文博客数据,通过这个数据我做了一些简单的分析,如果你正巧也对中文博客感兴趣,不妨进来随便看看。
首先这个数据来源的接口是https://zhblogs.ohyee.cc/中文博客列表导航项目,号称:尝试链接几乎所有的中文博客,如果搞过个人博客的应该都听说过,这里差不多每天都会有新的博客申请添加。
当天我通过API共采集到1767个博客的地址,1374个RSS订阅地址,当然这些博客和rss订阅多少会有打不开的问题,而且在采集RSS订阅的文章时,应为有些站长的RSS并不规范,所以文章的采集也只是其中的一部分了,采集了最近一个月内的RSS文章1001条。
通过标题、博客简介、博客标签、最近一个月发布的文章进行了jieba分词,生成柱状图、饼状图,这二个图只提取了排名前15个词语,词云图提取了前200个词,具体如下:
总体上来说,中文独立博客大部分都是一些技术人员和一些博客狂热分子,如果不热衷于独立博客肯定是不会搞得了,博文总体上也是以技术学习笔记为主,生活记录也是不少的,好吧今天就搞到这里了,就当复习了一下数据采集。