大规模网络数据分析与空间自回归模型|第4章 网络数据中的空间自回归模型(2)

发布时间:2026-01-31 03:38

温馨提示:本文部分公式较长,可向左滑动查看完整公式。

4.2.1 网络数据中的相依性

在社交网络中,人们并不是孤立存在的,不同的人之间的好友关系组成了复杂的社交网络,每个人的行为会被网络中的其他人所影响。近年来,随着Facebook等在线社交门户网站的快速发展,越来越多的营销和研究人员接纳了消费市场社交网络的观点(Hartmann 等, 2008; Van den Bulte 和 Wuyts, 2007),如一位女士对待某品牌的态度可能受到她朋友对该品牌态度的影响,反之亦然。因此,研究者认为网络数据是存在相依性的,而如何刻画社交网络中的相依性就成为他们重点关注的问题。大量研究者开始探究统计模型和网络拓扑结构如何影响对社交网络成员之间相依性的估计,基于计量经济学模型对社交网络成员之间行为和偏好的交互相关性的研究也纷纷涌现了出来。

图 1: 五个人组成的社交网络“关注-被关注”关系图

对于按照上述目的建立的空间自回归模型,本书的目的是推断在网络拓扑条件下人与人之间的网络自相关参数。不同于可观测的信息扩散,网络自相关参数是一个必须通过计量经济学估计才能复原出来的潜在过程。当对网络自相关参数做出估计后,就可以使用该估计来预测网络结构改变时的行为相关性,如De Choudhury等(2010)所述,而这往往是很难用任何描述性方法来实现的,需要利用拟极大似然、广义矩估计等方法对网络自相关参数进行估计和推断。4.3节会对空间自回归模型的估计方法进行具体介绍。

进一步地,当网络中的用户可以被分为两类时,如果类内用户之间没有直接的联系,而类间用户有直接联系,则称该社交网络为双模网络。在线购物平台、每日交易网站和客户评论网站等第三方在线平台中经常可以形成双模网络,在这些平台中,用户和商户被视为两种不同类型的节点,如果用户在平台上对商户提供的产品或服务进行购买或评论,则形成了双模网络的边。在双模网络中,不同用户的行为之间也是有相依性的,此时双模网络下的空间自回归模型(Huang等, 2020)可以被引入来分析这一社交网络中用户之间的相依性。

除此之外,前文中提到用户的行为受到其他用户的行为的影响,实际上,用户的不同行为之间也会互相影响,存在相依性。比如,用户所发表的不同主题的推文(例如,关于投资和消费的观点)自然构成了每个用户的多元响应,而一个人的投资观念(或消费观念)既受到他朋友的投资观念的影响,也受到他朋友的消费观念的影响。在多元响应变量的情况下,多元空间自回归模型(Zhu等, 2020)就可以被引入来分析用户之间的相依性。第7章将详细讨论多元空间自回归模型和双模网络下的空间自回归模型的模型形式、理论性质,并且给出对应的应用场景举例。

4.2.2 网络数据中的自回归模型定义

从社交网络的背景出发,可以构建出相应的权重矩阵 。对于具有 个用户的网络,如果存在从用户 到 ( )之间的联系,则定义 ,否则 ,其中 。因此,邻接矩阵在 中被记录为 ,并且假定 。进一步,行归一化的邻接矩阵在 中定义为 ,其中 , 是用户 的节点向外度,即用户 向外发出关系的总数。值得注意的是,这里的 的定义方式并不是唯一的,可以采用 矩阵的最大特征根来进行行标准化,参见Kelejian和Prucha(2010)的相关研究。对于节点特征,假设每个节点 具有一维连续响应变量(记为 )和 维外生协变量(记为 )。

4.1.2节提到,Ord(1975)给出了空间自回归模型,用一个参数 来刻画因变量 的各观测值之间的关系。而在网络数据的背景下,空间自回归模型(Chen等, 2013)可以类似地定义为:

(4.11)

其中,网络自相关参数 是一个标量参数,代表了样本观测值网络依赖的强度,满足 ,使用这样一个单一参数来描述来自观测值 的所有网络依赖关系的平均水平。式(4.11)中 这一项被称为空间滞后项,是与节点 存在关联关系的节点的变量 的观测值的一个线性组合。空间滞后项相关结构反映了网络成员之间的社交互动,其中矩阵 概括了网络拓扑结构对社交互动的影响,因为它体现了网络中任意两个用户(即节点)之间存在的连接(即边)。

空间自回归模型在空间数据中表达为 式(4.3) 的形式,在网络数据中表达为式(4.11)的形式。这两个模型从表达形式上来看是相同的,但是在应用场景上是有区别的。空间数据中的空间权重矩阵 矩阵往往代表空间上的相邻程度(LeSage和Pace, 2009),而网络数据中的权重矩阵 的含义更加广泛,比如在微博数据中可以表示各用户之间的关注和被关注的关系,在点评网站数据中可以表示各用户之间的共同喜好。网络数据的出现和发展拓展了传统地理网络中的相邻关系,也使得网络数据的含义变得更加丰富。在数据特征方面,网络数据往往具有高度的稀疏性,即 矩阵的稀疏性。若网络中的实际连接数要远少于网络中可能的最大连接数,则称该网络为稀疏网络。稀疏网络的研究更适用于常见的社交网络和计算机网络等真实网络,真实网络通常具有无标度(幂律)节点度分布,这意味着在同一网络中很少有极端连接的节点,而有很多稀疏连接的节点,如推特类的社交网络。常见的稀疏网络的假设条件可以参考Kelejian和Prucha(1998),Zhou等(2017)和 Ma等(2020)的相关研究。

4.2.3 网络数据的特征及空间自回归模型的应用

参考文献

Aravindakshan, A., Peters, K., and Naik, P. A. (2012), “Spatiotemporal allocation of advertising budgets,” Journal of Marketing Research, 49, 1–14.

Bradlow, E. T., Bronnenberg, B., Russell, G. J., Arora, N., Bell, D. R., Duvvuri, S. D., Ter Hofstede, F., Sismeiro, C., Thomadsen, R., and Yang, S. (2005), “Spatial Models in Marketing,” Marketing Letters, 16, 267–278.

Bronnenberg, B. J. and Mahajan, V. (2001), “Unobserved retailer behavior in multimarket data: Joint spatial dependence in Marketing Shares and Promotion Variables,” Marketing Science, 20, 284–299.

Bronnenberg, B. J. (2005), “Spatial models in marketing research and practice,” Applied Stochastic Models In Business And Industry, 21, 335–343.

Chen, X., Chen, Y., and Xiao, P. (2013), “The impact of sampling and network topology on the estimation of social intercorrelations,” Journal of Marketing Research, 50, 95–110.

De Choudhury, M., Lin, Y.-R., Sundaram, H., Candan, K. S., Xie, L., Kelliher, A.,et al. (2010), “How Does the Data Sampling Strategy Impact the Discovery of Information Diffusion in Social Media?” International Conference on Weblogs and Social Media, 10, 34–41.

Hartmann, W. R., Manchanda, P., Nair, H., Bothner, M., Dodds, P., Godes, D., Hosanagar, K., and Tucker, C. (2008), “Modeling social interactions: identification, empirical methods and policy implications,” Marketing Letters, 19, 287–304.

Hanssens, D. M., Parsons, L. J., and Schultz, R. L. (2003), Market response models: Econometric and time series analysis, vol. 12, Springer Science & Business Media.

Huang, D., Wang, F., Zhu, X., and Wang, H. (2020), “Two-mode network autoregressive model for large-scale networks,” Journal of Econometrics, 216.

Kelejian, H. H. and Prucha, I. R. (1998), “A generalized spatial two-stage least squares procedure for estimating a spatial autoregressive model with autoregressive disturbances,” The Journal of Real Estate Finance and Economics, 17, 99–121.

— (2010), “Specification and estimation of spatial autoregressive models with autoregressive and heteroskedastic disturbances,” Journal of Econometrics, 157, 53–67.

LeSage, J. and Pace, R. K. (2009), Introduction to spatial econometrics, Chapman and Hall/CRC.

Ord, K. (1975), “Estimation methods for models of spatial interaction,” Journal of the American Statistical Association, 70, 120–126.

Van den Bulte, C. and Wuyts, S. (2007), Social Networks and Marketing, Relevant knowledge series, Marketing Science Institute. Yang, S. and Allenby, G. M. (2003), “Modeling Interdependent Consumer Preferences,” Journal of Marketing Research, 40, 282–294.

Zhou, J., Tu, Y., Chen, Y., and Wang, H. (2017), “Estimating spatial autocorrelation with sampled network data,” Journal of Business & Economic Statistics, 35, 130–138.

Zhu, X., Huang, D., Pan, R., and Wang, H. (2020), “Multivariate spatial autoregressive model for large scale social networks,” Journal of Econometrics, 215, 591–606.

作者简介

黄丹阳,中国人民大学统计学院副教授,博士生导师,应用统计科学研究中心研究员,中国人民大学杰出青年学者,北京大数据协会理事会副秘书长,常务理事,全国工业统计学教学研究会青年统计学家协会理事。主持国家自然科学基金面上项目,青年项目,北京市社会科学基金青年项目等多项省部级及以上课题,曾获北京市优秀人才培养资助。长期从事复杂网络建模、超高维数据分析、分布式计算等方向的理论研究工作,注重统计理论研究在小微企业数字化发展中的实际应用。在Journal of Econometrics, Journal of the American Statistical Association, Journal of Business & Economic Statistics,以及《统计研究》等国内外期刊发表论文近30篇。

书籍简介

本书的主要内容包括网络数据的基本定义及基本特征,大规模网络数据的常见分析方法(链路预测,网络聚类)及应用,以及空间自回归模型在网络数据分析中的定义,模型拓展以及应用等等。本书关注大规模网络数据分析中的模型方法。除模型方法本身的理论拓展之外,在估计方法等方面会涉及大规模数据中的快速计算方法。由于网络分析本身的范围非常广泛,故本书涉及到的仅局限于作者及团队研究工作中使用到的一部分。在书的最后,为了启发读者思路,本书对于部分已有网络研究进行了梳理。本书的读者对象为统计学学者,对网络数据分析感兴趣,并且具备一定统计学基础的研究生,高年级本科生等。

往期推荐:

第1章 网络数据的定义及相关指标(1)

第1章 网络数据的定义及相关指标(2)

第1章 网络数据的定义及相关指标(3)

第2章 大规模网络中的链路预测(1)

第2章 大规模网络中的链路预测(2)

第2章 大规模网络中的链路预测(3)

第2章 大规模网络中的链路预测(4)

第2章 大规模网络中的链路预测(5)

第3章 网络聚类分析(1)

第3章 网络聚类分析(2)

第3章 网络聚类分析(3)

第4章 网络数据中的自回归模型(1) 返回搜狐,查看更多

网址:大规模网络数据分析与空间自回归模型|第4章 网络数据中的空间自回归模型(2) https://m.mxgxt.com/news/view/1984971

相关内容

大规模网络数据分析与空间自回归模型|第4章 网络数据中的空间自回归模型(2)
大规模网络结构数据分析与空间自回归模型|第1章 网络数据的定义及相关指标(2)
大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)
使用 Python 分析大规模社交网络数据
社交网络数据挖掘与分析
2024第九届网络空间数据科学国际会议在济举办
基于大数据的网络舆情预测分析
社交媒体的情感分析大数据模型
随机图模型在社交网络分析中的应用
社交网络数据的分析及可视化技术

随便看看