网络表征学习在最近几年引起了学术界和工业界的极大关注。在数据挖掘领域和机器学习领域都掀起了一波“网络嵌入”研究的热潮。针对不同类型的网络,如单纯网络拓扑、属性网络、信息网络、异构信息网络等均有大量研究。鉴于网络数据本身对于产业应用的重要价值,工业界对网络表征学习亦表现出相当的热情。腾讯、阿里巴巴等公司已将网络嵌入技术纳入下一代网络分析平台的基础性架构。

本文推荐了大网络表征学习方面的四篇经典论文,文末可获取。

DeepWalk: Online Learning of Social Representations

LINE: Large-scale Information Network Embedding

PTE:Predictive Text Embedding through Large-scale Heterogeneous Text Networks

DeepInf: Social Influence Prediction with Deep Learning

  DeepWalk 

Online Learning of Social Representations

论文介绍了DeepWalk,这是一种用于学习网络中顶点的潜在表示的新方法。这些潜在的代表在连续向量空间中编码社会关系,这很容易被统计模型利用。 Deep-Walk概括了语言建模和无监督特征学习(或深度学习)从单词到图形序列的最新进展。DeepWalk使用从截断的随机游走中获取的本地信息,通过将步行视为句子的等效来学习潜在表示。我们演示了Deep-Walk针对社交网络(如BlogCatalog,Flickr和YouTube)的多个多标签网络分类任务的潜在表示。我们的结果表明DeepWalk优于具有挑战性的基线,这些基线允许全球网络视图,尤其是在缺少信息的情况下。当标签数据稀疏时,DeepWalk的表示可以提供比竞争方法高10%的F1分数。在一些实验中,DeepWalk的表示能够胜过所有基线方法,同时使用的训练数据减少了60%。DeepWalk也是可扩展的。它是一种在线学习算法,可以构建有用的增量结果,并且可以轻松实现并行化。这些特性使其适用于广泛的现实世界应用,例如网络分类和异常检测。

  LINE

Large-scale Information Network Embedding

该文研究了将非常大的信息网络嵌入到低维向量空间中的问题,这在许多任务中很有用,例如可视化,节点分类和链路预测。大多数现有的图形嵌入方法不适用于通常包含数百万个节点的真实世界信息网络。在本文中,我们提出了一种称为“LINE”的新型网络嵌入方法,它适用于任意类型的信息网络:无向,定向和/或加权。该方法优化了精心设计的目标函数,该函数保留了本地和全局网络结构。提出了一种边缘采样算法,该算法解决了经典随机梯度下降的局限性,并提高了该方法的有效性和效率。经验实验证明了LINE对各种现实世界信息网络的有效性,包括语言网络,社交网络和引文网络。该算法非常有效,能够在几小时内在典型的单机上学习数百万个顶点和数十亿个边缘的网络嵌入。 LINE的源代码可在线获取。

  PTE

Predictive Text Embedding through Large-scale Heterogeneous Text Networks

无监督的文本嵌入方法,例如Skip-gram和Paragraph Vector,由于其简单性,可扩展性和有效性而吸引了越来越多的关注。然而,与复杂的深度学习架构(如卷积神经网络)相比,这些方法在应用于特定的机器学习任务时通常会产生较差的结果。一个可能的原因是这些文本嵌入方法以完全无监督的方式学习文本的表示,而不利用可用于任务的标记信息。尽管所学到的低维表示适用于许多不同的任务,但它们并未针对任何任务进行特别调整。在本文中,我们通过提出一种用于文本数据的半监督表示学习方法来填补这一空白,我们将其称为预测文本嵌入(PTE)。预测文本嵌入利用标记和未标记的数据来学习文本的嵌入。标记信息和不同级别的单词共现信息首先表示为大规模异构文本网络,然后通过主要且有效的算法嵌入到低维空间中。这种低维嵌入不仅保留了单词和文档的语义接近度,而且对特定任务具有强大的预测能力。与最近基于卷积神经网络的监督方法相比,预测文本嵌入是可比较的或更有效的,更有效的,并且具有更少的调整参数。

  DeepInf

Social Influence Prediction with Deep Learning

Facebook,Twitter,微信和微博等社交和信息网络活动已经成为我们日常生活中不可或缺的一部分,我们可以轻松访问朋友的行为并受其影响。因此,对每个用户的有效社交影响预测对于诸如在线推荐和广告的各种应用是至关重要的。传统的社交影响预测方法通常设计各种手工制作的规则以提取用户和网络特定的特征。但是,它们的有效性在很大程度上依赖于领域专家的知识。因此,通常很难将它们概括为不同的域。受到最近在各种计算应用中深度神经网络成功的启发,我们设计了一个端到端框架DeepInf1,以学习用户的潜在特征表示来预测社会影响。通常,DeepInf将用户的本地网络作为图形神经网络的输入,用于学习其潜在的社交表示。我们设计了将网络结构和用户特定功能纳入卷积神经网络和注意网络的策略。代表不同类型的社交和信息网络的Open Academic Graph,Twitter,Weibo和Digg的大量实验表明,提出的端到端模型DeepInf明显优于传统的基于特征工程的方法,这表明了有效性代表性学习社交应用。

总结

一.社交网络挖掘

依据对联系的观点,指出了三个维度的研究:个人、联系、社区。个人为单个结点,更多地需要借助社会学的知识;而后两者则按照是否产生了联系,研究社会影响、及团体行为。

二.对特征值的挖掘——表示学习的方法概要

1.Deepwalk 将word2Vec、用以分析文本的方法,应用到network当中。将网络中的连线当做在句子中词语的相连接,而生成句子的主要方式是随机生成路径。

2.LINE方法主要在于注意到以下事实:Thegeneral notion of the second-order proximity can be interpreted as nodes withshared neighbors being likely to be similar.在于抛弃单独的点的观念,而将点置于一个整体的网络中去看待点的存在。引入了第二距离的概念。

3.PTE(Predictive TextEmbedding)方法则侧重于将监督学习的方法运用到表示学习中,但也一定程度上限定了程序的普适性。

4.在基于以上方法的介绍和批判中,提出NetMF方法。指出以上方法虽然表面各异,但可以将这些方法都统一为对特定矩阵函数求极值的过程(求极值主要运用SGD等微分逼近方法)。而NetMF的方法要点在于应用矩阵因式分解的方法简化求极值的过程。

这里比较有趣的是Deepwalk的想法,及NetMF归一化的想法。这两者都表现出一种联系的倾向:Deepwalk将文本分析和Network Embedding联系在一起,而后者则指出以上方法都可归结为矩阵函数的求极值问题。

三.社会影响力:利用网络来探测个人

1.提出社会影响力的概念

若从形而上学的角度看,强调网络是在强调人的社会性,试图在网络的数据中去考察一个人的特征与行为;这也传统的社会科学的视角是相反的,在于社会学家、哲学家往往从个人的角度来认识这个社会,再将个人的视角推广至整个社会,例如学习经济学会先探讨微观经济学、再学习宏观经济学。

2.但这里是将人视为结点,而将人与人之间的关系视为连线

一个有趣的想法是将两者倒置,即将人视为连线,此时考察结点的不同定义,或许可作出许多有益的拓展。暂举几个例子:若将地点视为结点,则可根据人物理位置的移动,成为流行病学的研究;若将知识领域视为结点,则可根据人的工作、学历变动,成为对知识架构及人才流动的研究;若将社会地位视为结点,则可根据一个人的经济、社会地位的变动,来探讨阶级流动的社会问题。