基于数据挖掘微博人气用户特征研究和探究.doc

发布时间:2025-05-18 15:21

基于数据挖掘微博人气用户特征研究和探究

基于数据挖掘微博人气用户特征研究和探究   摘 要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用Clementine软件的C5.0决策树模型对这些数据进行分析。结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。 关键词:微博;决策树;用户分析;名人效应 中国分类号:TP39 文献标识码 :A 文章编2013 0 引 言 微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角色,它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户群展开分析研究。 目前,新浪微博用户数已超过1亿。仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的“金蛋”。那么新浪微博的用户群包括哪些人?他们当中的人气用户都是来自哪些行业?他们的空间分布又有什么特征?这些人群通过微博主要是为了了解信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示? 本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层特征等,找出这些问题的答案。了解微博在社会中的作用,了解“微博人”的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]。 1 研究设计 1.1 样本来源 研究所需的样本数据利用爬虫工具通过微博站点开放的API获取。获取的微博人气用户数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。 1.2 研究方法和思路 利用C5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。C5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。主要包括2个阶段:1)拆分阶段。根据能够带来最大信息增益的字段对样本进行拆分,再根据另一个字段进行拆分,直到样本子集不能拆分为止。2)修剪阶段。重新检验最低层次的拆分,对模型值没有显著贡献的样本子集进行修剪。 2 实证研究 首先,利用网络爬虫通过新浪微博的API成功从站点上爬取了用户信息数据及关系数据;然后,利用Clementine软件的C5.0决策树模型对这些数据进行分析。 2.1 研究结果 微博中的明星用户通过微博发布简单的信息,既能满足粉丝对明星生活的好奇心理,还能为明星自身做宣传,所以娱乐明星占据微博百强用户的大部分,即占到总人数的71%。而通过对百强用户的空间特征分类研究显示,其中的80%以上分布在北京、台湾和香港三地。 此外,分析结果还显示名人存在一个特征,即关注数小于500,被关注数大于10 000,而微文数却不及被关注数的千分之一。这说明微博中的名人通过自身的影响力便能吸引大量粉丝关注,而无需关注他人或发布微博,这种现象即为“名人效应”。 2.2 结果分析 从以上细分结果不难发现,虽然微博逐渐平民化和草根化,但是单单从人气用户分析,北京和香港等大城市用户居多,这主要是因为明星名人大多聚集在这些地域,而圈层分析结果显示明星名人在人气用户中占有很大部分,因此名人在微博中的影响力绝对不容忽视。但是另一个问题出现在我们面前,那就是从其他文献的研究调查中,我们发现微博的用户群分布非常广泛,天南海北,圈层更是涵盖了学生、白领、教师、自由职业等。其中,微博用户群中,企业的普通员工和学生的比例分别达到29%和17%,为什么我们的人气用户中这些行业的用户基本为0呢? 原因分析:一方面,因为在新浪微博用户中存在着相当数量的“沉默用户”和浏览用户,这些用户的活跃度不高,很少有发布/转发这种主动的行为,但是更重要的原因并不在此。 众所周知,从2005年9月新浪开通博客频道起,就大张旗鼓地邀请各路名人进行实名注册,于是随着博客在社会上的流行,新浪网的博客频道顿时变得门庭若市,点击率也日攀新高。在这种形式下,博客变得精英化,脱离草根阶层,成为正式媒体的倾向自然不可避免。而这一现象也同样延伸到了新浪微博当中,并有越演越烈的趋势。微博出现时曾有“人人都是记者”美誉,但是它在话语权的转移上却并不如我们所想象的那般乐观。“非著名话唠”得到的关注依然寥寥无几,声音能被听到并放大的仍然是那些已经在现实生活中积累了名气、财富、社会地位的人,知识沟效应在微

网址:基于数据挖掘微博人气用户特征研究和探究.doc https://m.mxgxt.com/news/view/1263972

相关内容

基于数据挖掘的微博人气用户特征分析与研究
基于用户特征的社交网络数据挖掘研究
基于数据挖掘的社交网络结构和用户影响力研究
〖治学探微〗数据挖掘方法在名老中医用药规律研究中的应用
基于隐私保护的数据挖掘技术研究
基于数据挖掘的社交网络分析与研究
基于话单数据的移动通信用户画像研究.pdf
基于大数据的大学生网络社交行为研究.doc
基于大数据的社交网络分析与应用研究.docx
微博社交网络数据挖掘和用户权重分析.doc

随便看看