基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷

发布时间：2025-08-25 06:38

基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷税漏税事件为例张行健焦政钟瑞童摘要：通过研究某知名演员偷税漏税事件的舆情走势，给出舆情分析框架，使用Ｗｏｒｄ２ｖｅｃ模型分析人物关系，梳理事件背景，而后使用评论影响力指标筛选具有导向作用的舆论，再通过主题模型提取观点，分析舆情走势，并对不同主题观点下各类人群构成做量化分析。

该分析框架有助于决策者迅速精准把握热点事件舆情，了解公众心理，反映社会风气。

关键词：舆情分析；观点挖掘；主题模型；ｗｏｒｄ２ｖｅｃ模型中图分类号：Ｇ２０６．３文献标识码：Ａ文章编号：ＣＮ６１－１４８７－（２０１９）０１０－０１３４－０４一、引言公众人物的一举一动对整个社会有很大的影响，人民群众的看法也反映了整个社会对于公众人物的认知和判断。

某知名演员每年的个人收入高达数亿人民币，在去年该演艺明星被曝出令人咋舌的天价片酬，并且“一阴一阳大小合同”公然偷税漏税等行业内幕也随之浮出水面。

自某新闻从业人爆出该明星的阴阳合同之后，各职能部门和媒体就一直没有中断对于该演艺明星的调查。

终于，在去年10月3日，该演艺明星偷逃税案件的结果正式公布，引发媒体关注。

“央视网”报道税务部门依法查处该明星“阴阳合同”等偷逃税问题。

此事一出，各类媒体争相报道，微博、知乎、朋友圈都充斥着各种评论和看法，该演艺明星偷税漏税事件成为引爆社会舆论的焦点。

本研究应用爬虫技术和文本挖掘技术和自然语言处理方法，对该明星偷税漏税事件的社会网络舆情实证分析框架进行研究。

二、文献综述（一）社会网络舆情从李津浩在《采写编》2017年第2期发表的文章《从社会公众事件看网络舆情引导》中，可以准确地总结出公众人物的定义、特点及其对舆论的影响。

社会公众人物具有公众性、典型性、商业价值、社会影响力的特点，其中最典型的特点是其言行会对社会和公众产生的巨大影响力。

如果公众人物的行为举止得当，凭借他们的高知名度，会成为社会发展好的方面的代表，给公众以积极的影响。

公众人物如果言行不当，在新媒体这种环境下，极易引发众怒，舆论就会呈现一边倒的声讨批评，产生网络舆情。

在网络舆情的研究方面比较成熟、主流的分析方法主要有网络调查法、基于统计规则的模式识别方法、基于内容挖掘的主题检测方法等。

以上几种方法均存在一定的局限性，一些新的方法应运而生。

首先，在大数据时代的背景下，数据挖掘的方法已经在更大程度和更广范围应用到网络舆情的分析和研究之中。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

其次则是聚类(clustering)分析法，即根据对某种相似程度的度量，按照相似度将数据对象分组成为多个类或簇。

[2]于志刚.全媒体时代与编造、传播虚假信息的制裁思路[J].法学论坛,2014(2).[3]姜子倩.网络造谣行为刑法规制的实证分析[J].法学论坛,2015(6).[4]高铭暄,马克昌.刑法学[M].北京:高等教育出版社,北京大学出版社,2017.[5]孙万怀,卢恒飞.刑法应当理性应对网络谣言——对网络造谣司法解释的实证评估[J].法学,2013(11).[6]魏东.关于网络造谣入罪问题的法理检讨[J].山东警察学院学报,2014(6).[7]侯帅.论刑法对网络造谣行为的规制——以对“公共秩序”法益的理解为切入点[J].四川警察学院学报,2014(5). [8](意)贝卡利亚.论犯罪与刑罚[M].黄风译.北京:中国大百科全书出版社,2008.[9]刘宪权.网络造谣、传谣行为刑法规制体系的构建与完善[J].法学家,2016(6).[10]李永升,李瑜.网络造谣行为的刑法规制研究[J].河南科技大学学报(社会科学版),2016(1).作者简介：张天姝（1993—），女，山东淄博人，单位为上海政法学院，研究方向为刑法学。

（责任编辑：润兴）134聚类分析法已经被广泛应用于很多方面的数据分析研究中。

最后则是社会网络分析法（SNA）,即通过对个体之间的关系构建模型并进行描述，对这些模型中包含的结构及其对个人和整个群体的影响进行分析。

我们可以将大数据应用到日常的舆情管理中，加强对各个网络平台的监管。

大数据技术的发展为传统网络舆情的管理拓宽了视野，我们可以运用大数据对网站、微博、微信等网络平台进行监控，对信息数据的传播和动态进行实时分析，以便从瞬息万变的舆情信息中找准重点，合理分配有限的资源，提高舆情管理效率。

（二）潜在狄利克雷（LDA）分布主题模型隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)，首先由Blei,David M.、吴恩达和Jordan, Michael I 于2003年提出，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。

一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

它是一种主题模型，可以将文档集中每篇文档的主题，按照概率分布的形式给出；它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可；此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述。

本小组在文本挖掘技术层面上在文献的分类筛选中选择了LDA主题模型，LDA主题模型在国内的研究也已经较为成熟。

苑东东、赵杰煜、叶绪伦（2018）在《结合深度学习的监督主题模型》中，万子玮（2018）在《基于主题词的微博用户兴趣模型研究》中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力，建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法，共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务。

在前人对LDA改进的基础上,将模型应用于微博用户兴趣的深度挖掘中,将模型的先验概率,更换为后验概率确定用户兴趣模型,提高了主题模型的计算效率,并且保证了主题兴趣挖掘的准确度。

最后,通过召回率、查准率等评价指标对模型进行评价分析,并分析模型应用于个性化广告推荐中的适用性。

三、该明星偷税漏税事件微博舆情分析（一）基于Word2vec模型的社会网络人物关系挖掘1.语料准备爬取知乎上关于“该明星偷税漏税”问题的回答共2022条。

选取知乎上关于“偷税漏税”事件的回答作为word2vec模型的训练语料的原因是，知乎上的回答大部分都是长文本，非常适合word2vec的训练，而且长文本可以将关于“偷税漏税”事件相关的过程来龙去脉阐释清楚，便于word2vec挖掘人物之间的关联度。

得到原始文本后，去除无关的网页标签数据，过滤出原始文本。

在语料数据预处理这个过程中，先将原始文本进行中文分词，由于我们最终的目的是要将“偷税漏税”事件相关联的公众人物挖掘出来并分析他们之间的关联度，所以我们注意的一点是对于人名的分词的准确度，构造精确的用户自定义字典。

由于word2vec注重于上下文的关联，所以将词频很高的语气词和助词等对上下文关联不起作用的词语去除，构造精确的停用词列表。

由于原始文本中有很多的与此事件阐述无关的网址，不能载入word2vec进行训练，所以将其剔除，最后去除所有的标点符号，得到可用于word2vec训练的文档。

以下给出语料预处理的具体步骤：第一步，将所有的回答载入一个文档中。

第二步，定义该明星偷税漏税问题的用户自定义字典，字典列表里包括明星的人名，其中也包含同一个人的多个称呼（如XXX和X老师），此外，还有相关知名影视公司。

第三步定义停用词，将词频较高的助词、语气词等定义为停用词，在分词之后这些词汇将会被过滤掉。

第四步，去除文本中所有的标点符号和网址链接，最终过滤出纯文本并将其分词，准备训练word2vec模型。

2.训练word2vec模型并输出相似度矩阵将知乎关于“该明星偷税漏税”问题所有的回答作为语料库训练word2vec模型，并挖掘相关人物的向量相似度（即人物相关性），并得到人物关系相似度矩阵。

图1 该明星偷税漏税时间关键人物关系网络由于矩阵中每一个人物关系相似度都超过0.9，所以要观察他们之间相对的相似度，要将其标准化。

为了防止人物关系相似度矩阵出现负数，用max-min方法对其进行标准化。

这种标准化的优点是：标准化后所有的数值都是非负的，并且原数据中最小的数标准化后变为0，最大的数标准化后变为1，可以让我们清晰地观察到关系相似度最高的两个人，还有最不相关的两个人。

将人物关系相似度矩阵进行可视化，转化为关系图：3.人物关系解读与事件梳理135从人物关系图中可以直观地看出，整个事件是以该明星为中心，向外辐射出与“偷税漏税”事件相关的人物，辐射出相关的人物有演艺人物4、新闻从业者1、演艺人物3、演艺人物2、演艺人物1。

在图中还可看出，与该明星关联性不大的演艺人物4，在此事件中，他和该明星是有一定的并列关系，因为他们同时被新闻从业者1所批判，因此演艺人物1和演艺人物4的相关性近似于0，说明在此事件中，演艺人物4和1毫不相关，互相不牵连。

这个模型最大的特点是能挖掘公众所不熟知的人物关系，比如演艺人物2和3，公众可能认为他们两个与“偷税漏税”事件毫不相关，其实不然，他们和这个事件的核心人物都有着非常大的关联度。

这个模型可以使公众有新的了解目标，主动地去搜寻看似不相关的人物的事件，而不是被动的接受媒体传播的信息。

（二）基于主题模型的舆论观点分析1.引入微博评论影响力指标过滤舆论导向信息使用Python+Selenium+Chrome编写爬虫程序。

截至目前，获取微博话题“#该明星偷税#”“#该明星偷税、漏税#”“#该明星大轰炸戏份9秒#”“#该明星偷税漏税调查结果#”“#该明星陷偷税门#”5个话题下内容无缺失的讨论文本共计2119条，并爬取发布者信息，共计1703条（同一个人可能有多条讨论）。

数据库变量类别分别为变量名、用户名、发布时间、转发量、评论量、点赞量、评论内容、性别、所在地、用户类别等。

使用转发、评论与点赞量构造微博评论影响力指标，衡量其言论所起到的舆论导向作用，过滤对舆论影响低的讨论。

指标计算方法如下：获取影响力指标大于等于1的讨论共计1003条，作为本次分析语料。

某明星新闻从业者1演艺人物1图2 微博话题下该明星事件讨论的词频图从词频图中我们可以清晰看出，作为事件主角的该明星的姓名出现次数遥遥领先其他词汇，总共出现了684次；其次是“偷税漏税”这一行为，总共出现了179次；像“罚款”“国家”“法律”“偷税”“逃税”这一类与国家法治制度相关的词汇出现次数紧随其后，基本都达到90次左右，这也体现了大多数微博用户对于国家基本法律的重视和对该明星违反国家基本法律政策的反对；除此之外，类似“视频”“明星”“大轰炸”“娱乐圈”这类有关娱乐圈电影明星的词汇的出现次数也有很多，基本上都达到了70次左右，说明部分微博用户认为该明星偷税漏税事件与整个娱乐圈风气具有一定的相关联度；最后，类似于“道歉”“补缴”“处罚”“依法”“刑事责任”“封杀”这类词汇的存在表明部分微博用户认为该明星有责任进行道歉以及受到处罚以正娱乐圈的风气。

网址：基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷 https://m.mxgxt.com/news/view/1709379

⬅️上一篇：短剧F4四美商业价值与舆情分析

➡️下一篇：金秀贤反告金赛纶，索赔120亿巨

基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷

相关内容

随便看看

最新实时动态

热点实时动态

专题

推荐实时动态