当前位置:首页 » 引流推广 » 正文

网络舆情调研报告要求,网络舆情排查情况报告,基于主题模型的网络热点新闻演化趋势研究

4883 人参与  2023年10月31日 20:35  分类 : 引流推广  评论

摘要:网络媒体的快速发展使得网民每天都会收到海量的新闻。 发现热点新闻并探究其演变趋势,可以帮助媒体把握新闻动态和读者喜好,帮助用户低成本、全面了解新闻事件的来龙去脉。 媒体网站可以实时获取新闻并进行文本处理,利用聚类分析、时间序列主题挖掘等算法来跟踪和了解热点新闻事件的演变趋势。 本文结合相关挖掘技术,提供了基于主题模型的热点新闻演化趋势挖掘的流程设计,并基于具体的新闻事件进行分析。

关键词: 热点新闻, 聚类, 主题模型, 文本挖掘, 新闻演化

一、研究背景

随着互联网的发展,网络新闻已成为媒体发布新闻和用户阅读新闻的主要渠道。 Web 2.0时代,互联网上的信息传输变得更加快捷、便捷,网民可以独立表达自己的观点,促进了各种热点新闻的诞生。 网络热点新闻是指反映社会反响较大、网民较为关注的新闻内容。 具有传播快、影响力大、关注度高的特点。 网络热点新闻一般会经历话题产生、话题变化、话题消亡三个阶段。 不同阶段的新闻有不同的热度和话题。 人们在网络上阅读大量新闻时,往往会关注某些领域的热门新闻,并希望了解热门新闻的来龙去脉等一般信息。

对互联网热点新闻事件的挖掘可以满足互联网用户的新闻阅读需求。 聚合来自网络中各种信息源的相同和相似的新闻事件。 最后,将聚集在一起的新闻事件按照时间顺序进行排列和统计,从而可以得到新闻事件的起因、发展、结果等一系列过程,并通过事件关注量的多少得到事件关注度变化曲线。统计信息。 挖掘结果可以使用户更加方便、快捷地了解网络中整个信息的演变趋势和情况,也可以引导用户关注社会和生活中的一些热点新闻。

从用户角度出发,对热点新闻演变趋势的挖掘和分析,为用户提供更方便、更快捷的服务。 使用户能够以最低的成本获得最多、最全面的内容。 可以帮助用户更加准确、快速的理解。 一个事件的来龙去脉、整个发展过程以及各方对事件的理解和看法。 对于媒体和网站管理者来说,通过对互联网热门事件的研究,可以有效得出互联网热点新闻迁移、互联网用户行为习惯变化、互联网舆情走向等结论[1]。 】,方便媒体顺应读者喜好,发布热点动态的新闻报道,引导和掌控新闻发展。

2、热点新闻挖掘技术及研究框架

2.1 热点新闻挖掘相关技术现状

在挖掘热点新闻的演化过程时,主要采用监督学习、无监督学习、复杂网络分析等相关技术。

(1)新闻聚类技术

传统的新闻主题聚类任务一般使用向量空间模型来表示新闻文档,然后通过相似度公式计算文档之间的距离。 新主题的识别主要通过增量聚类算法来实现; 通过话题提取和聚类工作可以不断生成和总结新的新闻话题[2]。 基于上述路径,诞生了多种新闻聚类方法。 Ron Papka[3]等学者提出了混合主题聚类算法。 他混合搭配多种聚类算法,根据不同聚类算法的特点,采用融合逻辑对新闻主题进行聚类。 种类。 Sayyadi等研究人员[4]将新闻主题与社交网络相结合,提出了基于关键词图的新闻主题聚类算法,充分利用了在线新闻系统中的消费者社交网络信息,取得了良好的效果。 影响。

(2)新闻分类技术

新闻网站对新闻进行分类,以便读者更准确地找到自己感兴趣的类别,方便相关阅读。 例如,当前新闻页面底部的新闻推荐可以让读者轻松阅读与他们当前正在阅读的新闻相关的其他新闻。 页。 目前,机器学习和神经网络技术的发展已经使新闻分类逐渐成熟。 支持向量机(SVM)、决策树、KNN 等分类算法在新闻分类任务中表现良好。

(3)主题挖掘技术

无监督学习中的主题模型可用于跟踪和检测新闻热点主题。 通过主题模型提取自由文本中的主题并进行分析。 主题模型也是近年来文本挖掘领域的热门话题。 主题模型起源于Deerwester[5]等人1990年提出的隐式语义索引。M.Blei等人提出的LDA模型。 [6]2003年扩展了隐式语义索引,得到了更完整的概率生成模型。 近年来,结合具体的应用场景,越来越多的基于LDA的概率模型出现。

(4)新闻进化挖掘技术

新闻主题演化上下文挖掘[7]是在跟踪特定主题相关报道的前提下,根据新闻之间的逻辑关系自动组织逻辑事件发展轨迹。 国内外研究的焦点之一集中在两个新闻之间的相似性度量(相关强度)。 有研究发现,新闻发展轨迹是自上而下的,具有时间接近、事件要素共现的特点。 利用事件的内容关联强度、时间关系可以构建新闻话题演化故事链[8]。

2.2 热点新闻演变趋势挖掘框架

网络热点新闻演变趋势分析主要分为三个模块:新闻获取模块; 热点新闻识别模块和热点新闻演化分析模块。 其中,新闻采集模块主要完成即时数据采集的任务; 热点新闻识别模块主要预处理新闻文本信息,利用聚类技术对新闻进行聚类,挖掘新闻热度和事件标签。 热点新闻演化分析模块主要是对簇内新闻进行时间序列上的主题挖掘,并直观地展示挖掘出的主题的演化过程。


3、新闻获取

在新闻采集阶段,主要目的是从新闻网站实时获取海量新闻数据,以满足分析新闻演变趋势的数据需求。 这一阶段的大致流程为:网页抓取、网页解析、信息提取、信息存储。

(1)网络爬取

爬取新闻网页是获取数据的基础。 面对新闻挖掘和爬取相关网页,必须满足两个特点:时序性和定向性。 定时抓取是指为了保证新闻的时效性,需要定期(每日、每周或每小时)抓取新闻网站的新闻页面。 由于新闻网站每天都会产生大量的新闻,只有及时捕捉当天的新闻,才能探索新闻演变的趋势。 有针对性的爬取是为了防止爬取的新闻过于分散。 可以从新闻网站的专题页或者专题页爬取。 以人民网为例,滚动新闻模块可实现每天0点新闻抓取,保证抓取的即时性和抓取内容的丰富性。

(2)网页分析与信息提取

对网页的分析可以获取网页中相对单一、固定的元素,如网页标题、副标题、链接信息、文本信息等。Python、Java语言环境下都有成熟的工具包可用。 SST(Site Style Tree)算法提供了一种基于网页中DOM树节点的信息熵来提取有效信息的方法。 它可以过滤网页中多余的无意义信息,提高信息抽取的有效性。

(3)信息存储

为了方便按照时间线对新闻进行分析,需要记录并存储网页的时间、新闻标题、新闻内容等信息。 存储网页新闻信息的数据系统可以采用SQL-Server数据库或Oracle数据库存储,以满足多线程并发查询大量数据的需求。 网页新闻存储表的字段设计如表3-1所示。 这些字段需要包含原始网页中的新闻信息和处理后的关键信息。 为了提高查询速度,可以对某些字段建立索引。


4.热点新闻识别

获得大量新闻数据后,需要对文本进行中文分词、去除停用词和低值词、文本特征表示等预处理操作,以满足后续分析需求。 在新闻热度识别模块中,聚类算法主要用于对文本进行聚类,挖掘相似文本集合的数量和主题,生成热点新闻主题的聚类。 �峳�

(1)文本分割与处理

对于原始新闻文本,利用聚类算法进行分析比较困难。 中文文本分词是必不可少的环节。 目前有比较成熟的中文分词工具如Jieba、THULAC、ICTCLAS等,可以对中文语料库进行分词、词性标注、新词识别等操作。 为了减少文本噪声,可以在分词后的分词结果中去除停用词。

(2)文本特征表示

分词后的词集可以使用基于代数理论的向量空间或基于概率统计的文本模型来表示。 向量空间模型主要将文本抽象为向量,向量是词汇表中唯一存在的单词。 它的值决定了该词代表文档的能力,体现了该词在文档中的重要性。 一般可以用TF-IDF(词频-逆文档频率)值来表示词特征项的权重。 TF-IDF算法这里不再详细介绍。 概率统计模型考虑了单词中的内在联系。 与向量空间模型相比,更符合文档生成的客观规则; 然而,操作和统计先验概率更加复杂,需要合理的优化。 常见的概率统计模型包括n-gram模型和最大熵马尔可夫模型。


在实际操作中,由于新闻集合包含大量词语,因此生成的特征向量空间维数较宽,计算规模较大。 为了提高聚类效率,可以压缩文本特征向量空间。 在计算文本特征距离时,仅存储两个文档中包含的单词的权重并用于降低特征向量的维度。

(5) 聚类标签表示

聚类后某一类新闻的数量可以表明该组新闻的受欢迎程度。 根据集群集合下的新闻报道数量,很容易找到哪个集群的新闻报道数量最多。 报道数量越多,该组合中新闻所代表的事件就越受欢迎。 但也需要用一个有代表性的标签来体现该类别下新闻的主题,表明该类新闻集正在谈论哪些事件。 由于聚类结果中存在噪声,不方便直接选取聚类中心的词向量作为聚类标签。 为了自动挖掘新闻集的主题,可以使用自然语言处理方法来概括文本内容。 然而,大量新闻文本的挖掘操作过于复杂。 在这里,提出了一种使用新闻标题集合来生成标签的聚类方法。 通过对新闻标题集合进行切分、词频统计和词性标注,选取词频最高的名词和动词作为聚类标签。 例如:聚类后得到关于台风的新闻集合。 计算该集合中新闻标题的词频,取动词和名词中出现频率最高的两个词组成一个词集{山竹、台风、学校停课、登陆},这个词集足以反映此类新闻的主题。


5、热点新闻话题演变分析

对大量新闻文本进行聚类后,得到了各组的新闻集合和简要集合标签特征。 接下来,可以对同一组内的新闻集合进行主题提取和演化分析。

5.1 DTM主题模型

文本的主题挖掘模型有很多种,最常用的是基于LDA的主题挖掘模型。 LDA模型是一种基于潜在狄利克雷分布的主题生成模型。 在该主题模型中,每个文本都是由一系列遵循多项式分布的主题生成的,并且每个单词都是从这些也遵循多项式分布的主题中采样的,从而形成模型。 然而,传统的LDA模型忽略了文本之间的某些逻辑或时间关系。 当面对具有演化时间标签的热门新闻集合时,必须考虑新闻主题的时间变化。

DTM模型是Blei在2006年提出的模型[6]。 它在LDA的基础上添加时序相关的信息,训练时序相关的模型来分析主题在时序上的变化。 传统LDA主题模型生成文档时,认为文档中每个单词对应的主题可以从一系列主题中互换采样。 然而,在现实世界中,文档的时间顺序会影响集合中的主题。 主题。 DTM假设文本可以按时间顺序(例如按年份)分为多个集合,则时间片t的主题从时间片t-1的主题演变而来。 时间片t-1的模型参数对时间片t的模型参数有影响。 图 5-1 显示了具有三个时间片的 DTM 模型。 图模型参数含义如表5-1所示。




5.2 新闻话题挖掘

在此实验中,省略了新闻聚类步骤。 人民网自3月份以来直接抓取“滴滴搭便车”相关新闻的事件序列,并利用话题模型挖掘新闻话题。 根据挖掘结果,可以获得新闻采集的六个主题。 清除主题之间的重复单词后,每个主题由 5 个单词组成。 挖掘主题模型后,已经能够发现一些主题的一般含义。 例如:话题3指的是“乐清一女子乘坐滴滴打车被杀”事件,话题6指的是“滴滴关闭夜店打车服务”事件的后续反应。


5.3 新闻时间序列演化分析

挖掘新闻话题的演化脉络,需要从话题的出现、发展、高潮、平淡到最终结束进行持续跟踪。 一个复杂的新闻话题往往包含多个子事件,事件之间存在一定的逻辑或时间关系。 通过这些事件之间的关系,可以获得新闻话题下事件的演变过程,帮助用户了解新闻的来龙去脉。 。

继续以“滴滴搭便车”事件的新闻为例,在识别出新闻主题后,在时间序列轴上表达每个主题的新闻数量趋势,以及每个主题随时间的演变以及影响可以发现不同的事件。 “滴滴顺风车”事件的报道焦点如图5-2所示。 可视化的新闻演变趋势图,可以清晰地展示某个话题及其子话题的出现、发展、高潮和平淡的发展趋势。


从图5-2可以看出,Topic 4主题“乐清-女性-乘客-被害人-悬赏”的报道数量爆发,并在2018年8月26日前后达到顶峰,这符合事件的演变规律。事件的实际报告; 话题三 2018年9月11日“夜间-专车-暂停-投诉-交通”举报量先增后降,恰逢滴滴决定在此时间段暂停夜间专车服务一周; Topic0话题“关于‘美团-市场-补贴-上线-高德地图’的消息”从2018年4月开始出现并有所增加,说明这段时间媒体有更多关于滴滴打车竞争对手美团打车上线的消息,这也与事实。 。

基于上述主题挖掘,选取一些主题词,将每个高频主题词的存在性用时间序列表示,如图5-3所示。 整个事件的发展演变趋势一目了然。


6. 研究局限性与展望

(1)聚类导致的新闻事件分离

聚类虽然可以将新闻事件聚类到不同类别或事件下,但如果聚类粒度选择不当,很容易将热点新闻的子事件分开,给后续的新闻演化分析带来不便。 如何优化文本相似度的计算方法、聚类数量以及算法目标函数仍然是一个问题。

(2) 时间主题之间的单词重复

应用时态主题模型挖掘的不同主题下的主题词存在交集。 虽然不同主题允许有相似的主题词,但在同一聚类簇下,获取不同的主题词来凸显热点新闻事件的动态发展和转折点更为重要。 主题挖掘后,可以在不同的主题词集合之间进行两次词的筛选。

(3)时间主题的逻辑关系尚未确定。

时序主题挖掘后的主题词集合相对独立,无法形成新闻事件演变的完整故事链,不利于用户理解和阅读。 可以尝试在新闻事件之间建立层次结构,结合聚类标签集和主题词集生成新闻事件发展链或故事链。

本文链接:https://www.woshiqian.com/post/220641.html

<< 上一篇 到底啦 >>

  • 评论(0)
  • 赞助本站

       

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

搜索

网站分类

最近发表