原文:
批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/在看数/留言数/赞赏数
我写了脚本批量抓取公众号文章数据,下载的文件有文章内容html,文章链接markdown,文章数据excel,数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等,比如深圳卫健委这个号的阅读数都是万+。
为了方便找文章,部分公众号的历史文章同步到博客不用在手机上翻历史文章了 ,比如深圳卫健委从到年发布了万多篇文章,第一篇文章是这个:
接着用python pandas分析excel里的数据 听说公众号深圳卫健委被网友投诉尺度大,我抓取了所有文章标题和阅读数分析了下
wechat=pd.read_csv(xxx公众号历史文章.csv,encoding=utf-)
查看文章总数:
len(wechat)
查看阅读数总数:
>>> wechat.阅读数.sum()
文章量发布作者前:
>>> wechat.文章作者.value_counts().sort_values(ascending=False).head()xxx Name: 文章作者, dtype: int
阅读数大于万+文章列表:
>>> wechat[wechat.阅读数>] 文章日期 文章标题 文章链接 ... 阅读数 在看数 点赞数 -- xxx mp.weixin.qq.com/s... ... [ rows x columns]
阅读数排行前的文章列表:
>>> wechat[[文章日期,文章标题,文章链接,阅读数]].sort_values(by=阅读数, ascending=False).head()
阅读数点赞数在看数平均值:
>>> wechat[[阅读数,点赞数,在看数]].mean() 阅读数 .点赞数 .在看数 .dtype: float
头条的阅读数点赞数在看数平均值:
>>> wechat[wechat.文章位置 == ][[阅读数,点赞数,在看数]].mean() 阅读数 . 点赞数 . 在看数 . dtype: float
头条和次条文章数:
wechat.groupby(文章位置,as_index=False).agg({"在看数":count}).sort_values(by=[在看数],ascending=False).head() >>> wechat.文章位置.value_counts().sort_values(ascending=False).head() Name: 文章位置, dtype: intwechat.query(文章位置 == )
原创文章数:
wechat.groupby(是否原创)[在看数].count().sort_values(ascending=False).head()wechat.groupby(是否原创).agg({"在看数":count}).sort_values(by=[在看数],ascending=False).head() >>> wechat.是否原创.value_counts().sort_values(ascending=False).head() 是 Name: 是否原创, dtype: int
还有评论区的IP归属地分布分析,我之前的文章也分析过微博/公众号/抖音等各大平台都显示 ip 归属地了,能改吗? ,一键批量下载微博评论数据,并分析ip归属地分布