我是钱

百度竞价优化_微商推广_今日头条自媒体_新媒体运营_剑谦网络

当前位置：首页 » 新媒体运营 » 正文

拼多多刷关注网站，批量抓取公众号文章数据，分析阅读数点赞数留言数

1259 人参与 2022年12月31日 11:28 分类 : 新媒体运营评论

原文：

批量下载公众号文章内容/话题/图片/封面/音频/视频，导出html，pdf，excel包含阅读数/点赞数/在看数/留言数/赞赏数

拼多多刷关注网站，批量抓取公众号文章数据，分析阅读数点赞数留言数-百度竞价优化_微商推广_今日头条自媒体_新媒体运营_剑谦网络

我写了脚本批量抓取公众号文章数据，下载的文件有文章内容html，文章链接markdown，文章数据excel，数据包含文章日期，文章标题，文章链接，文章简介，文章作者，文章封面图，是否原创，IP归属地，阅读数，在看数，点赞数，留言数，赞赏次数等，比如深圳卫健委这个号的阅读数都是万+。

为了方便找文章，部分公众号的历史文章同步到博客不用在手机上翻历史文章了，比如深圳卫健委从到年发布了万多篇文章，第一篇文章是这个：

接着用python pandas分析excel里的数据 听说公众号深圳卫健委被网友投诉尺度大，我抓取了所有文章标题和阅读数分析了下

wechat=pd.read_csv(&#;xxx公众号历史文章.csv&#;,encoding=&#;utf-&#;)

查看文章总数：

len(wechat)

查看阅读数总数：

>>> wechat.阅读数.sum()

文章量发布作者前：

>>> wechat.文章作者.value_counts().sort_values(ascending=False).head()xxx    Name: 文章作者, dtype: int

阅读数大于万+文章列表：

>>> wechat[wechat.阅读数>]           文章日期                  文章标题                                               文章链接  ...     阅读数  在看数   点赞数  --  xxx   mp.weixin.qq.com/s...  ...     [ rows x  columns]

阅读数排行前的文章列表:

>>> wechat[[&#;文章日期&#;,&#;文章标题&#;,&#;文章链接&#;,&#;阅读数&#;]].sort_values(by=&#;阅读数&#;, ascending=False).head()

阅读数点赞数在看数平均值：

>>> wechat[[&#;阅读数&#;,&#;点赞数&#;,&#;在看数&#;]].mean()
阅读数    .点赞数      .在看数      .dtype: float

头条的阅读数点赞数在看数平均值：

>>> wechat[wechat.文章位置 == ][[&#;阅读数&#;,&#;点赞数&#;,&#;在看数&#;]].mean()
阅读数    .
点赞数      .
在看数      .
dtype: float

头条和次条文章数：

wechat.groupby(&#;文章位置&#;,as_index=False).agg({"在看数":&#;count&#;}).sort_values(by=[&#;在看数&#;],ascending=False).head()
>>> wechat.文章位置.value_counts().sort_values(ascending=False).head()        Name: 文章位置, dtype: intwechat.query(&#;文章位置 == &#;)

原创文章数：

wechat.groupby(&#;是否原创&#;)[&#;在看数&#;].count().sort_values(ascending=False).head()wechat.groupby(&#;是否原创&#;).agg({"在看数":&#;count&#;}).sort_values(by=[&#;在看数&#;],ascending=False).head()
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head()
是    Name: 是否原创, dtype: int

还有评论区的IP归属地分布分析，我之前的文章也分析过微博/公众号/抖音等各大平台都显示 ip 归属地了，能改吗？ ，一键批量下载微博评论数据，并分析ip归属地分布

本文链接：https://www.woshiqian.com/post/175407.html