我们来看下standford的Aditya Grover的《node2vec: Scalable Feature Learning for Networks》。

1.介绍

node2vec是一种半监督算法,用于在网络中的可扩展特征学习。受之前NLP中工作[21]的启发,我们会使用SGD对一个定制的基于图的(graph-based)目标函数进行优化。直觉上,该方法会返回特征表示,对于在d维空间内的节点,会对它们的网络邻节点的似然进行最大化。我们使用2-order的随机游走来为顶点生成(抽样)网络邻节点。

我们的关键贡献是,为一个顶点的网络邻节点定义了一个灵活的概念。通过选择一个合适的概念,node2vec可以学到网络表示,它们可以基于现在的网络角色,或者属于的社群来进行组织。我们通过开发一个有偏的随机游走(biased random walks)的族谱,它可以有效探索一个给定顶点的邻居分布。结果算法很灵活,提供可调参数给我们以对搜索空间进行控制,而不是之前的方法[24,28]进行严格搜索(rigid search)。相应的,我们的方法可以建模网络等价物。参数管理着我们的搜索策略,具有一个直观解释,会让walk朝着不同的网络搜索策略进行偏移。这些参数在一个半监督学习中,只使用很小比例的带标注数据(labeled data)就可以直接学到。

我们也展示了单独节点的特征表示如何被扩展成节点对(pairs of nodes。比如:边)。为了生成边的特征表示,我们将将学到的特征表示与简单的二元操作相组合。这种组合(compositionality)将node2vec引入到关于节点(或者是边)的预测任务上。

我们的试验集中在两个关于网络的公共预测任务上:一个多标签分类任务,其中每个节点被分配一或多个标签;一个链接预测任务,其中给定一个节点对,预测该边是否存在。我们将node2vec与state-of-art的特征学习方法[24,28]进行对比。并从现实中不同领域中的网络进行实验,比如社交网络,信息网络,以及系统生物学网络。对比起state-of-art的方法,实验演示了nod2vec在多标签分类上要好26.7%,在链接预测的任务上要好12.6%。该算法展示了有竞争力的效果,即使只有10%的带标签数据,对于噪声或缺失边的情况下一样健壮。计算上,node2vec的主要过程是并行化的,它可以扩展到带有数百万节点的大网络上,只需要几个小时的计算量

该paper主要贡献是:

  • 1.提出了nod2vec,一种用于网络特征学习的高效的扩展算法,可以通过一种显著的network-aware,neighborhood preserving objectives,使用SGD方法进行高效优化。
  • 2.我们展示了node2vec如何适应在网络科学中已确立的准则,提供了在发现表示上的灵活性,并有不同的等价物。
  • 3.我们基于neighborhood preserving objectives,扩展了node2vec以及其它特征学习方法,将节点扩展到节点对,来基于边的预测任务。
  • 4.在多个真实数据集上,在多标签分类和链接预测上评估node2vec。

2.

在NLP的表征学习的最近进展上,有新方法对离散目标(比如:词)进行特征学习。特别的,Skip-gram模型是目标就是学习连续的特征向量,通过优化一个(neighborhood preserving likelihood objective). 该算法的处理如下:扫描一个文档的词,对于每个词,它的目标是将它进行嵌入,以便该词的特征可以预测邻近词(例如:在一些上下文窗口中的词)。词的特征表示通过使用SGD、negative sampling对likelihood objective进行优化学习得到。skip-gram目标函数是基于分布式假设:有相似上下文的词,趋向于具有相近的意思。也就是说,相似的词趋向于出现在具有相似词邻居的上下文内。

受skip-gram模型的启发,最近的研究确立了一种网络的类比法,将一个网络表示成一个“文档(document)”。相同的方法是,一个有序的词序列,节点序列需要从底层网络上进行采样,将一个网络转化成一个有序的节点序列。然而,对于节点来说,存在许多可能的抽样策略,会从而学到不同的特征表示。事实上,正如我们展示的,对于所有网络和所有预测任务来说,没有明确可胜出的抽样策略可以适用所有场景。以前的方法的主要缺点是,在从一个网络上进行抽样节点时缺乏灵活性。我们的算法node2vec克服了该限制,通过设计一种灵活的目标函数,它不会绑定一个特定的抽样策略,提供参数来调节探索的搜索空间(见第3节)。

最终,对于基于节点和基于边的预测任务,存在许多监督特征学习方法[15,17,31,39]。这些架构直接最小化loss function,使用多层非线性转换来产生更高的accuracy,但扩展开销高,因为训练时间长。

3.特征学习框架

我们将网络特征学习看成是一个极大似然优化问题。给定一个网络。我们的分析是普适性的,可以应用于任何有向(无向)、加权(不加权)的网络。假设:是映射函数,将节点映射到特征表示。这里的d是特征表示的维度。f是一个size为的参数矩阵。对于每个源节点(srouce node),我们定义了作为节点u的一个网络邻节点,它通过邻节点采样策略S来生成。

我们扩展了Skip-Gram架构来处理该网络。我们对下面的目标函数进行最优化,它会基于它的特征表示,对一个节点u的一个网络邻节点的log概率进行最大化,f给定:

…(1)

为了让最优化变得可处理,我出做出了两个标准假设:

  • 条件独立性。我们通过假设:给定源节点的特征表示,观察到一个邻节点的似然,与观察到其它邻节点是独立的:
  • 特征空间的对称性。一个源节点和它的邻节点在特征空间中具有对称性的相互影响。因而,我们建模每个(源节点-邻节点)pair的条件似然建模成一个softmax unit,它由它们的特征点积进行参数化:

有了以上假设,等式一的目标可以简化为:

…(2)

每个节点的分区函数:,对于大网络来说计算开销很大,我们可以使用负采样[22]来对它做近似。我们使用SGA(ascent)对等式(2)进行优化.

基于skip-gram的特征学习方法,最早源自于NLP上下文学习。文本本身是线性的,一个邻词可以很自然地使用一个在连续词汇上的滑动窗口进行定义。而对于网络,是非线性的,因而需要更丰富。为了解决这一点,我们提出了一个随机过程,它会对给定源节点u抽样许多不同的邻节点。不局限于它的立即邻节点(immediate neighbors),具体取决于抽样策略S,有不同的结构。

3.1 经典搜索策略

图1

我们将对一个源节点的邻节点进行抽样的问题看成是一种局部搜索(local search)。图1展示了一个图,其中,给定一个源节点u,我们的目标是生成(抽样)它的邻节点。重要的是,为了比较不同的抽样策略S,我们将邻节点集合的size限制为k个节点,接着为单个节点u抽样多个集合。总体上,有两种极限抽样策略来生成k个节点的邻节点集合

  • 广度优化抽样(BFS:Breadth-first Sampling): 邻节点被限制到关于源节点的立即领节点上(immediate neighbors)。例如:在图1中,对于一个邻节点的size为 k=3, BFS抽样的节点为:
  • 深度优化抽样(DFS:Depth-first Sampling):邻节点包含了从源节点开始在增加的距离上按顺序抽样的节点。在图1中,DFS抽样

BFS和DFS表示了根据搜索空间进行探索的两种极限情况。

特别的,在网络上的节点的预测任务通常会是两种类型相似度的混合(shuffle):同质(homophily)等价 和结构(structural)等价。在同质假设下,节点高度交错连接,并且属于同网络聚类或社群,在embedding上更紧密(例如:图1中的节点和u属于相同的网络社群)。相反的,结构等价假设下,在网络上具有相似结构角色的节点,应该在embedding上更紧密(例如:节点u和在图1上分演扮演着相应社群中心的角色)。更重要的是,不同于同质等价,结构等价不强调连通性;在网络中的节点可以离得很远,但它们仍具有相近的网络结构角色。在真实世界中,这些等价概念并是排斥的;网络通常具有两者的行为。

我们观察到,BFS和DFS的策略在处理表示时扮演着重要角色,它影响着上述两种等价。特别的,BFS抽样的邻节点会导致embedding与结构等价更紧密。直觉上,我们注意到,为了探明结构等价,通常会对局部邻节点进行精准的描述。例如,基于网络角色(桥接:bridges、中心:hubs)的结构等价可以通过观察每个节点的立即节点(immediate neighborhoods)观察到。通过将搜索限制到邻近节点,BFS达到了这种characterization, 并且获得了关于每个节点的邻近点的微观视角。另外,在BFS中,在抽样邻节点上的节点趋向于重复多次。这很重要,对于。

3.2 node2vec

基于上述观察,我们设计了一种灵活的邻节点抽样策略,它允许我们在BFS和DFS间进行平衡。我们通过开发一种灵活的有偏随机游走(biased random wolk)过程,它可以以BFS和DFS的方式来探索邻节点。

3.2.1 随机游走

给定一个源节点u,我们进行模拟一个固定长度为l的随机游走。表示在walk中的第i个节点,从起点开始。节点通过下面的方式生成:

其中是未归一化的节点v和x间的转移概率,而Z是归一化常量。

3.2.2 搜索偏差

对我们的随机游走进行bias的最简单方法是,基于一个静态边权重(例如: )来抽样下一个节点(无权重图则)。然而,该种情况不能解释网络结构,并指导搜索过程来探索不同类型的网络邻居。另外,不同于BFS和DFS两个极端,我们的随机游走会兼容两者。真实网络中通常也是两者混合。

图2: 在node2vec中的随机游走过程说明。该walk会从t到v进行转移,并在node v准备出去的下一步进行评估。边的labels表示搜索的bias

我们定义了一个2阶随机游走,它具有两个参数p和q来指导walk:考虑到一个随机游走,它穿过边(t,v),现在留在节点v上(图2)。该walk需要决定,在下一步它会评估在边(v,x)上由v产生的转移概率。我们设置未归一化转移概率为,其中:

其中,表示在节点t和x上的最短路径距离。注意,必须是{0, 1, 2}其中之一,因而,两个参数都是必须的,可以充分指导该walk。

直觉上,参数p和q控制着该walk从起始节点u进行探索和离开邻节点的快慢。特别的,该参数允许我们的搜索过程(近似)在BFS和DFS间进行插值,从而影响不同节点等价的紧密关系。

返回(Return)参数:p。参数p控制着在walk中立即访问一个节点的似然。将它设置成一个高值(> max(q,1)),可以确保我们在下两步内对一个已经访问节点进行抽样的可能性变得很小。(除非在walk内的下一个节点没有其它邻居)。这种策略鼓励适度探索,避免在抽样时存在二跳内重复(2-hop redundancy)。另一方面,如果p很小(<min(q,1)),它将导致该walk会回溯(backtrack)一个step(见图2),并且这会让该walk“局部”上保持与起始节点u的接近。

入出(In-out)参数:q。参数q允许搜索在“inward”和”outward”节点间区分。回到图2, 如果q>1, 随机游走会偏向于更接近节点t的节点。这样的walk会根据在walk中各自的起始节点获得一个关于底层graph的局部视图,近似的BFS行为感觉上我们的抽样在一个小的局部内的节点组成。

作为对比,如果 q < 1, 该walk更趋向于访问那些离节点t更远的节点。这样的行为受DFS影响,它会鼓励outward探索。然而,这里的一个基本不同是,我们在随机游走框架内完成DFS-like的探索。因而,被抽中的节点不需要对到给定节点u的距离进行增加才行,反过来,我们受益于对随机游走的回溯预处理和优秀的采样效率。注意,通过将设置成关于一个在walk t内前继节点的函数,随机游走是2阶markovian。

随机游走的好处。比起纯BFS/DFS方法,随机游走有许多好处。随机游走在时间和空间需求上的计算很高效。在图中为每个节点存储它的立即邻节点的空间复杂度为。对于二阶随机游走,会存储在每个节点的邻节点间的交叉连接,这会引发一个空间复杂度为,其中是该graph的平均度,它通常对于现实网络来说很小。比起经典的基于搜索的抽样策略,随机游走的其它核心优点是它的时间复杂度。特别是,通过引入在抽样生成过程中的图连通性,随机游走提供了一个很便利的机制,通过复用跨不同源节点间的样本,来增加有效抽样率。通过模拟一个长度l>k的随机游走,得益于随机游走的马尔可夫性,我们可以为l-k个节点一次生成k个样本。因而,每个样本的有效复杂度为。例如,在图1中,我们抽样一个长度为l=6的随机游走 {},它会产生,以及。注意,在整个过程中,样本复用可能引入一些bias。然而,我们观察到它可以极大提升效率。

3.2.3 node2vec算法

算法1

node2vec的伪代码,详见算法一。在任何随机游走中,由于起始节点u的选择,会有一个隐式偏差(implicit bias)。由于我们为所有节点学习表示,我们会为每个节点通过模拟r个固定长度为l的随机游走来对该bias进行补偿(offset)。在该walk的每一个step,会基于转移概率进行抽样。对于二阶马尔可夫链,转移概率可以被预计算好,因而,当模拟随机游走时,节点的抽样可以很有效地在O(1)时使用alias sampling完成。node2vec的三个阶段(phases),即:预处理计算转移概率、随机游走模拟、使用SGD进行优化,是按顺序进行的。每个phase可以并行化和异步执行,从而做到node2vec整体可扩展性。 node2vec的一个实现:http://snap.stanford.edu/node2

3.3 学习边特征

node2vec算法提供了一个半监督方法来学习网络中节点的丰富特征表示。然而,我们通常对涉及节点对(pairs of nodes)的预测任务感兴趣,而非单个节点。例如,在链接预测上,我们在网络中的两个节点间预测一个链接是否存在。由于我们的随机游走在底层网络上天然地基于节点间的连通结构,我们可以使用一个bootstrap方法来将它们扩展到节点对的特征表示,而非单个节点的特征表示。

给定两个节点u和v,我们定义了一个二元操作o,在相应的特征向量f(u)和f(v),为了生成一个表示g(u,v),比如:,其中是pair(u,v)的表示的size。我们希望我们的操作对于任意节点对可以进行定义,即使一条边在pair间不存在,因为这样做可以使表示对于连接预测有用,我们的测试集包含了true edges和false edges(不存在)。我们对于操作符o的一些选择,以便,由表1归纳的。

实验

node2vec: Scalable Feature Learning for Networks

yahoo japan在kdd 2017的《Embedding-based News Recommendation for Millions of Users》提出了关于新闻推荐的一些方法:

#

理解文章内容和用户偏好,对于做出有效新闻推荐来说很必要。而基于ID的方法,比如:CF和低秩因子分解,也可以做出推荐,但它们不适用于新闻推荐,因为候选文章会快速超期,在短时内被更新的替代。Word-based方法,常用于信息检索,是很好的候选方法,但它们只与用户历史动作的”queries”同义相关。该paper提出了一种embedding-based方法,它使用分布式表示,以一个3-step end-to-end的方式进行:

  • i) 基于一个denoising autoencoder的变种生成文章的分布式表示
  • ii) 使用一个RNN,将用户浏览历史作为输入序列,生成用户表示
  • iii) 基于内积(inner-product)操作为用户匹配(match)和列出(list)对应文章,并考虑上系统性能。

提出的方法在Yahoo! Japan的主页上的历史访问数据进行评估和实验,并表现良好。我们基于实验结果,在我们实际的新闻分发系统上实现了它,并比较它的在线效果。CTR的提升有23%,总时长(total duration)提升了10%,对比起常用的方法。我们提出的方法已经开放给所有用户,并每天提供推荐给超过1000w个人用户,每月访问次数超10亿。

1.介绍

对于用户来说,读取所有存在的文章的新闻分布是不可能的,这受限于时间。因而,用户喜欢新闻服务可以选择性地提供文章。这种选择通常由编辑人工完成,所选故事的公共集合会在传统媒体上(比如:电视新闻节目、报纸)被提供给用户。然而,在互联网上,我们可以使用以下信息:user ID cookies、单个用户的个性化阅读文章等等,从而对用户进行标识来更好地选择文章。

ID-based方法,比如CF或低秩因子分解,可以很好地做出推荐。然而,[22]建议,这样的方法不适合于新闻推荐,因为候选文章很快会过时。因而,新闻推荐需要有三个关键点:

  • 理解文章内容
  • 理解用户偏好
  • 基于内容和偏好为用户列出挑选的文章

另外,在现实中能快速响应扩展性和噪声并做出推荐很重要[14]。应用也需要在数百ms内返回响应给每个用户。

覆盖上面三个关键点的一个baseline实现如下。一篇文章被看成是关于它的文本的一个词集合(words collection)。一个用户可以看成是他/她浏览的多篇文章的一个词集合(words collection)。该实现会使用文章集和它的浏览历史之间的词共现作为特征来学习点击概率。

该方法有一些实际优点。它可以快速响应最新趋势,因为模型很简单,可以很快进行学习和更新。优先级的估计可以使用已经存在的搜索引擎和词的倒排索引进行快速计算。

出于这些原因,我们的之前版本实现基于该方法。然而,有一些要点可能会对推荐质量有负面影响。

第一个是词的表征(representation of words)。当一个词只当成一个feature使用时,两个具有相同意思的词会被看成是完全不同的feature。该问题会趋向于出现在在新闻文章中当两个提供者对于相同的事件提交文章时。

第二个问题是,浏览历史的处理。浏览历史在该方法中被处理看一个集合(set)。然而,他们实际上是一个序列,浏览的顺序应能表示用户兴趣的转移。我们也必须注意,用户在历史长度上分别很大的,从私人浏览,到那些每小时多次访问。

基于深度学习的方法已经在多个领域取得效果。词的分布式表示可以捕获语义信息。RNN已经为处理不同长度的输入序列提供了有效结果【9,15,17】。

如果我们使用一个RNN来构建一个深度模型来估计用户和文章间的兴趣度,另一方面,很难满足在实时系统中的响应限制。该paper提出了一个embedding-based方法,它使用一个在3-step end-to-end中使用分布式表示的方法,基于相关性和重复性,来为每个用户表示文章列表中的每篇文章。

  • 基于一个denoising autoencoder的变种来生成文章的分布式表示
  • 通过使用一个RNN,使用浏览历史作为输入序列,来生成用户表示
  • 为每个用户基于用户-文章的内积,根据相关性和文章间的去重性,来匹配和列出文章

我们的方法的关键点是估计文章-用户间(article-user)的相关性。我们可以在用户访问足够时间之前,计算文章表示和用户表示。当一个用户访问我们的服务时,我们只选择他/她的表示,它计算候选文章和该表示间的内积。我们的方法可以表达包含在用户浏览历史中的复杂关系,并能满足实时性限制。

提出的方法被用到新闻分发服务中。我们比较了我们的方法和其它方法,结果表明,提出的方法要好于常用方法,不管是在实时服务上还是静态实验数据上,缺点是,增加了学习时间,模型更新延迟,但都在允许范围内。

2.服务和处理流

在该paper中讨论的方法被用在Yahoo!Japan上。第6节描述的在线实验也在该页上进行。

图1: Yahoo!Japan在移动端的主页示例。该paper讨论了关于个性化模块中的文章的方法

图1展示了一个我们的服务的实物,可以在May 2015复现。在顶部header有一个搜索窗口和其它服务的链接。中间部分,称为“Topics module”,提供了在主要新闻上通过人工专家为读者群精心挑选的的6篇文章。底部,称为“个性化模块(Personalized module)”,提供了许多文章和广告,它们对于用户是个性化的。在个性化模块中的用户,可以随着他们的滚动看尽可能多的文章。典型的读者基本上会浏览20篇文章。该paper描述了个性化文章提供的最优化。

会执行5个过程来为数百万用户进行个性化选择文章。

  • Identify:通过用户之前的历史行为计算获取user features
  • Matching:使用user features抽取匹配上的文章
  • Ranking: 以特定优先级对文章列表重排序
  • De-duplication:去重,移除包含相似信息的文章
  • Advertising: 如果有必要,插入广告

从用户发起请求到展示文章,这些过程必须在数百ms内完成,因为文章是经常变化的。事实上,在我们服务中的所有文章,超过24小时就失去了新鲜度,每天会发表上万的新文章,同样的,相同数目的老文章会因为超期被移除。因而,每个过程都会采用较轻计算开销的方法,它会使用预计算好的文章的分布式表示(第3节描述)和用户表示(第4节)。

我们使用一个用户的分布式向量和候选文章向量间的内积,来匹配相关性和选择满意的候选。我们通过考虑额外因子(比如:PV的期望数目,每篇文章的新鲜度,以及匹配的相关度)来决定排序的优先顺序。我们会以贪婪的方式基于分布式表示的cosine相似度去复相似文章。当带有更高优先级的文章的cosine相似度的最大值,超出一定阀值时,我们会跳过该文章。在真实新闻分发服务中这是一个重要的过程,因为相似文章在排序时具有相似的分数。如果相似文章的展示相互挨着,用户满意度会下降,因为在展示时缺少多样性。广告也很重要,但许多研究表明广告与用户满意度间的关系,这里我们省略这一块的讨论。

3.文章表示

第1节介绍了一种使用words作为一篇文章的features的方法,它在特定的关于抽取和去重的cases中不一定能工作良好。这一节会描述一种方法来将文章表示成分布式表示。我们提出了之前的一种方法[12]。

3.1 生成方法

我们的方法会基于一个denoising autoencoder,并使用弱监督的方法来生成分布式表示向量。常见的denosing autoencoder可以公式化:

其中是原始input vector,是加噪声混淆分布(corrupting distribution)。stochastically corrupted vector, ,从中获取。隐表示,h,从映射穿过该网络,它包含了一个激活函数,,参数矩阵W,参数向量b。在相同的方式下,reconstructed vector,y, 也从h映射,带有参数。使用一个loss函数,,我们学习这些参数来最小化y和x的reconstruction errors。

h通常被用于一个对应于x的向量表示。然而,h只持有x的信息。我们希望解释,如果更相似时,两个表示向量的内积 更大。为了达到该目的,我们使用了一个三元组,,作为训练的输入,并修改了目标函数,来维持他们的类目相似性:

其中,, 以至于具有相同或相似的类目,具有不同的类目。在等式(1)中的h满足该属性,。这意味着,这是一篇与其它文章都不相似的文章。该概念,是一个关于文章相似度的罚项函数,它对应于类别相似度(categorical similarity),其中是一个用于权衡的超参数。图2提供了该方法的一个总览。

图2: 文章三元组有encoder

我们使用elementwise sigmoid 函数,作为,elementwsie cross entropy为,masking noise为。我们训练该模型,,通过使用mini-batch SGD进行最优化。

我们在应用阶段(application phase)通过使用常数衰减来构建,在训练阶段(training phase)则使用stochastic corruption作为替代:

其中,p是训练阶段的corruption rate。因而,h是应用时唯一确定的。乘以(1-p)对于将输入分布均衡到在middle layer中的每个神经元有影响,在masking noise和没有该noise间进行学习(待)。

我们使用在上述三个应用中生成的h作为文章的表示:

  • (i) 可作为user-state函数的输入
  • (ii) 可以衡量user和article间匹配的相关度
  • (iii) 衡量在去重时文章间的相似度

4.用户表示

本节描述了通过用户浏览历史进行计算用户偏好的多种方法。首先,我们对问题进行公式化,并生成一个简单的基于word的baseline方法。接着描述使用文章的分布式表示的一些方法。

4.1 概念

假设:A是关于文章的所有集合。元素的表示依赖于该京城。在4.2节中,a是一个描述的word-based方法的稀疏向量,向量中的每个元素对应于词汇表中的每个词。然而,在4.3节和4.4节中,a是一个关于文章的分布式向量表示。

浏览(Browse)意味着用户访问一篇文章的URL。假设是用户的浏览历史。

会话(Session)意味着用户访问推荐服务并在推荐列表中点击某篇文章。

当用户u点击在我们的推荐服务中的一篇文章时(发生一次会话),他/她会立即访问被点文章的URL(发生一次浏览)。这样,对于浏览之间,从不会超过一个session;因此,该session被称为。然而,用户u也可以不经过我们的服务而访问一篇文章的URL,例如:通过一次Web search。因此,并不总是存在。

由于一个session会对应提供给u的列表,我们通过一个文章列表来表示一个session: 是推荐列表位置的集合,它实际上对应于在该session中屏幕上的展示位置。假设:是点击位置,而是非点击位置。尽管P, , 取决于u和t, 我们会忽略这些下标以简化概念。图3展示了这些概念间的关系。

图3: 浏览历史和session

假设是user state,它取决于等等,表示在浏览之后u的即时偏好。假设:是user state 与文章 a间的相关度,它表示了用户u在时间t上对于文章a的兴趣强度。我们的目标是,构建user-state function:以及相关度函数:,它们需满足下面属性:

…(2)

我们考虑下:请求量很大的真实新闻分发系统的受限响应时间,必须是一个简单函数,并能快速计算。对于所有用户,以及所有文章,由于候选文章会很频繁更新,对相关得分进行预计算是不可能的。因此,有必要在很短的时间内计算它(从访问我们的服务页面到推荐列表到被展示)。然而,我们具有足够多的时间来计算user state function:(从浏览一些文章页面到下一次session发生)。

我们的受限相关函数(restrict relevance function):,表示一个简单的内积关系,,出于这些原因,只有对user state function: 来最小化目标函数:

…(3)

其中是logistic sigmoid function。等式4.1是等式(2)的一个宽松版本。实际上,在点击率上存在一个bias,具体取决于文章的展示位置,我们使用以下包含bias项的目标函数,来纠正这种影响。尽管是一个通过学习决定的参数,它的描述在下面会被忽略,因为它是该模型的一个公共项。

4.2 Word-based模型

我们引入第1节所述的word-based模型作为baseline。

回顾下baseline实现的三个steps。

  • 一篇文章通过它的文本中的词集合进行表示
  • 一个用户通过他/她浏览过的文章所包含的词集合表示
  • 用户与文章间的相关度通过关于在两者间的词共现数的一个线性函数表示

如果文件表示为a,用户函数为F,V是词汇表,定义如下:

…(4)

其中是x中的第v个元素。接着,相关函数变为一个关于参数简单线性模型:

该模型有两个缺点,略。

4.3 Decaying Model

我们引入了一个简单模型来解决上述缺点。模型的两点改变是:

  • 它会使用由第3节构建的分布式表示作为表示向量,而非纯BOW表示。
  • 它会使用根据浏览历史的加权平均,而非最大值。更特别的,我们会增加最近浏览在权重,减小前些天浏览的权重。

总之,可以表示为:

其中,是一个参数向量,它与具有相同维度,是两个向量的elementwise乘法,其中是一个标量,它是一个用于表示时间衰减的超参数。如果是1, 就是简单的平均,无需考虑浏览次序。训练参数只有,它与baseline模型相似。

4.4 Recurrent Models

4.4.1 simple Recurrent Unit.

尽管decaying model要比word-based model要好,它有局限性,与频次、以及受指数衰减限制的遗忘影响成线性关系。

更常见的,由前一state,和前一浏览决定:

因而,我们会尝试使用一个RNN来学习该函数。一个简单的RNN可以公式化为:

其中是激活函数;因而,我们后续使用双曲正切函数:。训练参数是个方阵,bias vector为b,初始state vector ,其中是公共初始值,并不依赖于u。

我们通过end-to-end minibatch SGD的方式对等式 4.1的目标函数进行学习。然而,当输入序列过长时,简单的RNN很难学习,因为会存在梯度消失和爆炸问题。额外的结构被绑定到hidden layer上,以便减轻该问题。

下一部分会介绍使用这些结构的两个模型。

4.4.2 LSTM Unit

LSTM是一种解决梯度消失和爆炸问题的结构。我们可以将LSTM模型公式化为:

其中,是elementwise logistic sigmoid函数,是一个hidden memory state。图4是LSTM模型的一个网络结构。

图4

center flows是从输入(浏览过的文章)到输出(user state)的最重要的flows。输入,,被编码中从文章向量空间到hidden空间(等式5),会合并之前的hidden state(等式6),并编码成文章向量空间(等式7,等式8)作为user state。

另外,该unit具有三个gates,称为input gate(),forget gate(),output gate(go_t)。我们假设每个gate都会各尽其职。input gate会过滤掉不必要的输入来构建一个user state,比如:由突然兴趣造成的。forget gate表示用户在兴趣上的下降。它可以表示比指数衰减(exponential decay)更复杂的forget影响。output gate会过滤掉在下一个session中不关注的成分。

训练参数是权重矩阵,bias向量b,初始化state vectors ,其中是不依赖于u的公共初始化值。

4.4.3 Gated Recurrent Unit(GRU)

是另一种避免梯度消失和爆炸的方法。公式如下:

更准确的,该模型使用一个GRU layer和一个fully connected layer来构建,因为等式(1) 在原始GRU配置中不包含。图5展示了GRU-based模型的结构。

图5

除了省略了一些键头,该结构与LSTM-based模型相似。然而,等式(6)和等式(9)有一个重要的不同点。gate会扮演在LSTM-based模型的两个gates的角色:

…(12)

等式11对于非常长的输入序列具有一个较大值;等式(12)从不会超过该常数。因此,我们认为GRU-based模型比LSTM-based模型能更好地解决梯度爆炸问题。

LSTm-based模型在训练时偶尔会失败,归因于我没在实验中没有使用梯度裁减(gradient clipping)从而造成梯度爆炸。然而,GRU-based模型不需要任何前置处理,不会造成梯度爆炸。

5.实验

5.1 训练数据集

首先,抽样了接近1200w的用户,它们在2016年1月到9月间,在Yahoo!Japan主页上有点击文章的动作。我们会为每个用户抽取一个超过两周时间的日志,随机包含至少一次点击。该抽取方法被用于减轻在特定时间内流行文章的影响。

最后产生的结果,在训练数据中,会有16600w个session,10亿次浏览,200w唯一的文章。我们也创建了相同时期内另一个数据集,并使用它作为验证集来最优化参数。

5.2 测试集

抽样了50w sessions,在2016年10月,用户点击文章超过位置20. 我们为每个session抽取前两周的浏览日志。我们使用位置1到20的文章数据来进行评估,忽略是否实际在屏幕中显示过。这基于我们timeline-based UI的观察。用户会从顶划到底,当点击一篇文章时趋向于离开我们的服务。这就是说,如果我们只使用实际展示的数据进行evaluation,安排实际展示按逆序的方式,进行不成比例地评估也佳。

5.3 离线Metrics

AUC、MRR、nDCG

5.5 结果

参考

http://sci-hub.tw/10.1145/3097983.3098108

在google提出的deep-wide模型之后,华为实验室的人提出了一个DeepFM模型:

1.介绍

现有的模型基本都是偏向于这么几类:低阶特征交叉、高阶特征交叉、或者依赖特征工程。DeepFM可以以一种端到端(end-to-end)的方式来学习特征交叉,无需在原始特征之上做特征工程。deepfm可以归结为:

  • 提出了一种新的NN模型:DeepFM(图1),它集成了FM和DNN的架构。它即可以像FM那样建模低阶特征交叉,也可以像DNN那样建模高阶特征交叉。不同于Wide&Deep模型,DeepFM可以进行端到端训练,无需任何特征工程。
  • DeepFM的wide part和deep part,与Wide&Deep模型不同的是,它可以很有效地进行训练,共享相同的输入以及embedding vector。在Wide&Deep方法中,输入向量(input vector)的size可能很大,因为需要为wide部分人工设计pairwise型特征交叉,复杂度增长很快。
  • DeepFM在benchmark数据上和商业数据上都进行了评测,对现有模型可以有效进行提升。

2.方法

假设训练数据包含了n个样本(x, y),其中x是一个m-fields的数据记录,通常涉及到一个(user,item)的pair,其中表示用户点击行为的label。x也包含了类别型字段(比如:性别,位置)和连续型字段(比如:年龄)。每个类别型字段被表示成一个one-hot编码的向量,每个连续型字段用它原有的值进行表示,或者进行离散化one-hot编码表示。这样,每个实例可以被转换成(x,y),其中 是一个多维向量,其中是向量中的第j个字段。通常,x是高维且十分稀疏的。CTR预测的任务就是构建一个预测模型来估计用户点击的概率。

2.1 DeepFM

图1

我们的目标是同时学到低阶和高阶特征交叉。为此,我们提出了基于NN的FM(DeepFM)。如图1所示,DeepFM包含了两个组件:FM组件和Deep组件,它们共享相同的输入。对于feature i,使用作为权重来衡量1阶的重要性,隐向量用于衡量feature i与其它特征交叉的影响。所有的参数,包括,以及网络参数会进行joint training:

…(1)

其中是预测的CTR,是FM组件的输出,是deep组件的输出。

2.1.1 FM组件

图2:FM组件架构

FM组件是一个因子分解机,它可以学到推荐系统的交叉特征。除了特征间的线性交叉(1阶)外,FM还可以将pairwise(2阶)特征交叉建模成各自特征隐向量的内积。

当数据集是稀疏时,对比起过去的方法,它可以更有效地捕获2阶特征交叉。在之前的方法中,特征i和特征j的交叉的参数只有当两者都出现在同一数据记录时才能被训练。而在FM中,它可以通过隐向量的内积来衡量。由于这种灵活的设计,当只有i(或j)出来在数据记录中,FM也可以训练隐向量Vi(Vj)。因而,对于从未出来或很少出现在训练数据中的特征交叉,可以通过FM很好地学到。

如图2所示,FM的输出是一个求和单元(Addition unit),以及多个内积单元:

…(2)

其中 , (k给定)。求和单元反映了1阶特征的重要性,而内积单元则表示二阶特征交叉的影响。

2.1.2 Deep组件

图3:deep组件的架构

Deep组件是一个前馈神经网络,它用于学习高阶特征交叉。如图3所示,一个数据记录(即一个向量)被feed给NN。对比起图像和音频的神经网络输入数据(它们几乎都是continuous和dense的),CTR预测所需的输入相当不同(需要一个新的网络结构设计)。尤其是,ctr预测的原始特征输入向量通常是高度稀疏的,相当高维,类别型和连续型混杂,以fields进行分组(例如:性别、地域、年龄)。这暗示了:在进一步feed给第一个隐层(the first hidden layer)之前,需要一个embedding layer来将输入向量压缩成一个低维的、dense的实数值向量,否则该网络将很难训练。

图4:embedding layer的结构

图4高亮出从input-layer到embedding layer的子网络结构。我们指出了该网络结果的两个有趣的特征

  • 1) 当不同的field输入向量(input field vectors)的长度可以不同,他们的embeddings则具有相同的size(k)
  • 2) 在FM中的隐特征向量(V)现在作为网络的权重(weight)使用,它可以将input field vectors压缩到embedding vectors中。在[Zhang et al.2016]中,V由FM预训练得到,用于初始化。在DeepFM中,并不会这样做,FM模型是整个学习架构的一部分。这样,我们不需要由FM进行预训练,而是直接以end-to-end的方式进行joint train

embedding layer的output定义如下:

…(3)

其中是第i个field的embedding,m是field总数。接着,被feed给DNN,forward处理如下:

…(4)

其中l是layer的depth,是一个activation function。分别是第l层的output,模型weight,bias。之后,会生成一个dense型实数值特征向量(dense real-value feature vector),最后它会被feed给CTR预测用的sigmoid function:

其中$|H|$是hidden layer的数目。

需要指出的是,FM组件和Deep组件会共享相同的feature embedding,这会带来两个好处:

  • 1) 可以学到从原始特征的低阶交叉和高阶交叉
  • 2) 没必要像Wide&Deep模型那样对输入进行专门的特征工程

2.2 与其它NN关系

图5

这部分比较了CTR预测中,DeepFM与其它存在的deep模型。

FNN

如图5(左)所示,FNN是一个由FM初始化的前馈神经网络。FM预训练策略会产生两个限制:1) embedding参数完全受FM的影响 2) 由于预训练阶段引入的开销,效率会降低。另外,FNN只能捕获高阶特征交叉。

PNN

目标是捕获高阶特征交叉,PNN在embedding layer和第一个hidden layer间引入了一个product layer。根据不同类型的product操作,有三种变种:IPNN,OPNN,PNN,其中IPNN是基于向量内积,OPNN基于外积,PNN同时基于内积和外积。

为了让计算更有效率,作者提出了内积和外积的近似计算:1) 内积通过消除一些神经元来近似计算 2) 外积通过将m个k维feature vector压缩到一个k维vector来近似。然而,我们发现外积比内积的可靠性更差,因为外积的近似计算会丢失很多信息,让结果不稳定。尽管内积更可靠,它仍具有高的计算复杂度,因为product layer的输出连接到第一个hidden layer上的所有神经元(neuron)上。不同于PNN,DeepFM的product layer的output只连接到最后的output layer上(一个neuron)。与FNN类似,所有的PNN都会忽视低阶特征交叉。

Wide & Deep

Wide & Deep由Google提出,用于同时建模低阶和高阶特征交叉。它需要专家对wide部分的输入端进行特征工程(例如:用户安装的app和app推荐曝光的app间的交叉),相反地,DeepFM不需要专家知识,直接从输入的原始特征进行学习。

该模型的一个简单扩展是,通过FM替代LR。该扩展与DeepFM相似,但DeepFM会在FM组件和Deep组件间共享feature embedding。这种共享策略会影响低阶和高阶特征交叉的特征表示,可以更准备地进行建模。

总结

3.试验

数据集:

1) Criteo Dataset: 4500w用户点击记录。13个连续特征,26个类别型特征。 2) ) Company∗(华为) Dataset:收集了该公司App Store的游戏中心连续7天的用户点击记录数据进行训练,下一天数据进行预测。整体数据集有10亿记录。在该数据集中,有app特征(id,类别等),user特征(下载过的app等),context特征(操作时间)

Evaluation Metrics

AUC ((Area Under ROC))和 LogLoss(cross entropy)

具体见paper,不详述。

参考

https://arxiv.org/pdf/1703.04247.pdf

yahoo在2010年提出的《Learning to Blend Rankings: a Monotonic Transformation to Blend Rankings from Heterogeneous Domains》。

介绍

给定一个关于items的集合 ,X的一个ranking是一个关于的排列。在l2r的领域中有大量研究[1,2,5,8,12]。然而,在许多应用中,我们需要将多个异构领域(heterogeneous domains)的关于items的rankings集成到一个关于在所有sets中所有items的单个ranking中,比如多种垂直搜索引擎(vertical search engine):视频搜索、图片搜索、博客搜索等。例如,一个items集合可以是来自Web的文档集合,而另一个可以是来自一个垂直搜索引擎(比如:Blog或News搜索)的文档集合。将来自多个异构领域的rank lists进行合并是一个非平凡问题(non-trivial topic),因为:

  • 1) 这些异构集合可以共享一些文档,但很可能也有许多非公共文档
  • 2) 异构领域通常具有不同的features和feature-to-relevance相关性(correlations)

以问答网站(Yahoo! Answer)为例,尽管对于普通网站的text matching和click features可以被用于该domain的ranking中,使用这些独一无二的页面结构和用户反馈开发的features,比如:在Yahoo! Ansers中的点赞率(thumbs up ratings)和反馈总数(feedbacks),在自有domain中的ranking上有大的用处。但Yahoo! Answers和普通网页文档共享的features在两个domains中的相关度上可能有非常不同的相关性。因此,需要使用一种跨domain的统一ranking function,以便在每个私有domain内更好地对文档进行排序,因此需要新的技术:将来自异构domains的文档融合(blend)到单个ranking list中。

我们想强调的是,该问题通常与rank aggregation问题[4,9]是相当不同的,RA问题需要在items的异构集合(homogeneous set)上将不同的rankings进行merge。

我们将来自多个异构域的rank lists进行集成(integration)定义为一个blending问题,将以如下方式将learning to blend rankings的问题进行公式化:

  • a) 我们具有异构类型的items。每种类型的items在相应domain内都有一个rank order
  • b) blending的训练数据的形式为:items sets和它相关的rankings的pairs,pair中的第一个属于items的某一类型(type),第二者属于items的另一类型(type)。

最优组合排序(optimal combined rankings)是learning to blend的ground truth,可以以如下两个steps生成:

  • 1) 为这些rankings中的每个item分配相关度标签,比如:Perfect, Excellent, Good, Fair, Bad (简写为:P/E/G/F/B)
  • 2) 根据这些标签将ranking lists进行merge sort

以这种方式进行Blending可以最大化Discounted Cumulative Gain(DCG),并且可以为这些rankings保留原排序(ordering)

给定训练数据——组合排序(combined ranking)和在私有domain中的rankings,我们希望学到一种单调递增的转换(在私有domain上的ranking score),使得当使用关于(item sets, 相关rankings)的一个新pair时,我们可以使用转换后的ranking scores来生成一个combined ranking。

在本paper中,我们将该问题公式化成一个二次规划问题(quadratic programming problem),并学习一个线性单调转换,使得在每个domain中的排序(rank order)保留,以及转换后的分值是可比的

2.问题公式化

为了设计一个blending转换,我们假设:训练数据是一个包含了pairs的集合。在该工作中,我们主要关注以下场景:每个私有的ranking的order会在blending后保留。具有该constraint的Blending非常像归并排序(merge sorting)

出于简洁性,假设我们只有两个rankings。考虑,我们有:

其中,M和N分别是第一个set和第二个set的items数目,是items。

在每个domain中的rank order为,关于rankings的格式我们考虑两种situations:

  • 1) 对于一个items集合,只有items的ranking
  • 2) 对于一个items集合,每个item都有一个score,items的ranking通过items的scores引出,例如:ranking是通过对items的scores进行sorting获得的

给定一个关于item sets和它相关rankings的pair,我们可以区分三种cases:

  • 两个sets都是situation 1)。我们需要学习一个transformation:它可以将一个set中的ranks与另一set的ranks相关联
  • 一个set是situation 1),另一个set是situation 2)。我们需要学习一个transformation:它可以将一个set中的ranks与另一个set中的scores相关联
  • 两个sets都是situation 2)。我们需要学习一个transformation:它可以将两个sets中的scores进行校正(calibrate)

对于在situation 1)中的一个ranking 是它的rank的负数,而在situation 2)中是相应的score。因此,三种cases可以使用一个公式进行表述。

对于,我们有:

对应于,我们也具有共M+N items的combined ranking(出于简洁,这里假设两个list间没有重叠items):

根据需要,来自两个list的items的原list顺序会被保留。

相应的,我们定义了两个子集:对应于的rank高于的cases,对应于的rank低于的cases,并定义了:

核心问题是,如何从训练数据中自动化学习一个blending transformation。我们提出在中对使用一个单调递增函数,使得该blending可以基于。通过这样做,来自每个单独的ranking list的顺序(order)可以被自动保留。的学习会最大程度地遵循editorial blending ranking。(假设我们具有X个rankings,。可以选择其中之一做为参照点,其余个transformations会被学到)

3.算法

3.1 我们的算法

我们将transformation learning问题公式化成一个二次规划问题。

服从:

其中:

  • K是来自 两者的items的总数目。

如果假设是线性的,并且形式为:,上述问题将变为:

…(1)

满足:

通过求解以上QP问题,我们可以获取该线性变换(linear transformation)的一个 (相同的可以被应用到所有queries上)

如果query的分类信息足够,我们也可以为每个query length、或者每种类型的queries学习一个。在等式(1)中的constraints会给定相同的权重,它可以进行调整来为更重要的constraints提供更高的weights。其它非线性单调变换在将来的工作中会进行探索。

等式(1)演示了两个domains的思想。该算法可以轻易地扩展到blend超过两个的rankings上。给定来自X domains的ranking lists,选择其中一个作为参照点,其余X-1的转换。该QP问题的constraints会涉及到来自任意两个domains的item sets的所有pairs,例如:该问题将变为:

符合:

4.实验

4.1 数据

我们对提出的算法进行了评估,所使用数据为:使用web搜索结果与Yahoo!Answers domain产生的垂直搜索结果进行blending。1300个queries从一个商业搜索引擎的query logs中抽样得到,800个queries被用于训练,500个用于validation。对于每个query,我们具有两个集合的文档:普通web文档、Yahoo! Answers文档。每个文档会被5种label之一进行标记(label):Perfect、Excellent、Good、Fair和Bad,以相关度的递减序排列。我们在每个domain上具有预生成的ranking functions,并于rank score 可以通过在每个domain上对相应domain的文档使用ranking function生成。给定,QP问题的constrains可以通过应用merge-sort到两个rank lists上进行构建,并在web文档和Answers文档间保留paired score perference。

4.2 实验

为了评估提出的算法,我们只关注是线性变换的简单case,例如:。使用800个queries来学习transformation和500个queries用于validation。

Baseline方法

我们对比的该baseline是Naive blending方法,其中的scores直接拿来比较进行排序。

评估metrics

我们上报了广泛使用的相度度指标:Discounted Cumulaive Gain(DCG)。对于一个N个文档的ranked list(N被设置成10, 或者实验中的1),我们使用以下的DCG变种:

其中表示在position i上分配的label的weights(比如:10表示Perfect match,7表示Excellent match, 3表示Good match等),相关度越高,DCG的值越高。我们使用DCG来表示:在testing queries的集合上的DCG值的平均。

在我们的应用中,目标是将Yahoo! Ansers的文档blend到web rank list中。我们上报了DCG1和DCG10, 如表1中的web rank list和blended list。我们的方法可以观察到有1.18% DCG10和0.9% DCG1增益。两者在统计上都是很大的提升。在我们的应用中,的选择不会极大影响我们的实验,我们在实验中使用。该Naive blending方法不会达到任何DCG的提升。这表明,从异构域的rank scores不能直接比较,需要一个blending算法。

也需要计算pair-wise error rate,(例如:item sets的pairs百分比,不能被正确rank)。换句话说,该error rate会衡量在QP问题中有多少constraints不能被满瞳。表2上报了error rate。学到的线性变换给出了一个35%的error rate。因此,我们会研究optimal DCG,螃蟹烧开吃测评发票merge-sort策略获取。

Blending的上界

merge-sort的思想是,两个ranking lists可以被认为是最好的DCG10(它可以通过blending获取),例如:一个blending算法可以达到的上界。我们的测试数据中,最好的DCG 10是7.06. 因此,还有提升的空间。第5节会讨论将来的研究方法。

5.相关工作

最近几年,ranking问题被多次表示成一个监督机器学习问题。这些l2r方法可以组合不同类型的features来训练ranking functions。ranking的问题可以被看成是从pair-wise的偏好数据中学习一个ranking function。该思想是,最小化在训练数据中的矛盾对的数目。例如,RankSVM会使用SVM来学习ranking function。RankNet则使用神经网络来梯度下降来获取一个ranking function。RankBoost则使用boosting从一个弱ranking functions集合中来构建一个高效的ranking function。。。

受[10]的启发,我们的算法将一个pairwise ranking问题看成是一个二次规划问题。

6.略

参考

我们来看下intel提出的《Parallelizing Word2Vec in Multi-Core and Many-Core Architectures》。

介绍

word2vec是用于抽取词的低维向量表示的常用算法。包含Mikolov原版在内的state-of-art算法,都已经为多核CPU架构提供了并行化实现,但都基于使用”Hogwild” updates的vector-vector操作,它是内存使用密集型的(memory-bandwidth intensive),并且不能有效使用计算资源。在本paper中,我们提出了“HogBatch”,通过使用minibatching和negative sample sharing来改善在该算法中多种数据结构的复用,从而允许我们使用矩阵乘法操作来表示该问题。我们也探索了不同的技术来将word2vec在同一计算集群上的跨节点分布式计算,并演示了扩展至32个节点上很强的可扩展性。这种新算法特别适合于现代双核/多核架构,特别是intel最新的Knights Landing处理器,并允许我们以接近线性的方式跨多核和多节点扩展计算,并可以达到每秒处理数百万个词,这是目前已知的最快的word2vec实现。

1.从Hogwild到HogBatch

我们提到[5,6]有对word2vec和它的最优化问题的一个介绍。原始的Mikolov的word2vec实现使用Hogwild来并行化SGD。Hogwild是一个并行SGD算法,它会忽略在不同线程上模型更新间的冲突,并允许即使在发生冲突时也能更新处理。使用Hogwild SGD的word2vec的伪代码如图1所示。算法会采用一个矩阵,它包含了每个输入词的词表示;以及一个矩阵,它包含了每个输出词的词表示。每个词被表示为一个D维浮点数组,对应于两个矩阵的某一行。这些矩阵会在训练期间被更新。在图1中,我们选取一个目标词,以及围绕该目标词的N个输入上下文词组成的集合来做示例描述。该算法会在第2-3行上迭代N个输入词。在第6行的循环中,我们选取正样本(第8行的target word),以及一个随机负样本(第10行)。第13-15行为对应选中的输入词和正/负样本计算目标函数的梯度。第17-20行会对中的条目进行更新。伪代码只展示了单个线程;在Hogwild中,第2行的loop会进行线程并行化,在代码中无需任何额外的修改。

算法1

算法1会读取和更新对应于在第6行loop中每轮迭代上的input context和pos/neg words的矩阵M的条目(entries)。这意味着,在连续的迭代间存在一个潜在依赖——他们会发生碰到相同的词表示,从前一轮迭代到该轮迭代完成时,每轮迭代必须潜在等待更新。Hogwild会忽略这样的依赖,并忽略冲突以继续更新。理论上,对比起顺序运行,这会让算法的收敛率下降。然而,对于跨多线程更新不可能会是相同的词的这种情况,Hogwild方法已经得到验证能运行良好;对于大词汇表size,冲突相对较少发生,收敛通常不受影响。

图1: 原始word2vec(左)和我们的实现(右)的并行化schemes

1.1 共享内存并行:HogBatch

然而,原始的word2vec算法主要有两个缺点,极大影响运行时长(runtimes)。第一个是,由于多个线程可以更新相同缓存行(cache line): 它包含了一个特定的模型条目(model entry),这可能在跨多核时会有极大的cache lines冲突。这会导致较高的访问延时和在扩展性上极大的下降。第2个也是更重要的,模型中的大部分位置的更新在Hogwild算法中没有被利用。例如,我们可以很容易看到,对于多个输入词的更新,在模型中会使用相同目标词。通过一次只进行单个更新,该位置信息会丢失,该算法会执行一系列level-1 BLAS操作[1]的点乘(dot-products),它受内存量(memory-bandwidth)限制。下面我们会展示,将这些操作batch成一个level-3 BLAS调用[1],可以有效地利用计算能力和现代多核架构的指令集

我们以2-steps的形式利用位置(locality)信息。受图1的启发,该图左侧展示了原始word2vec的并行化scheme。注意,我们通过给定输入词、以及目标词、同时还有K个负样本来计算词向量。我们不再一次只计算一个更新,而是将这些点乘batch成一个矩阵向量乘法,一个level-2的BLAS操作[1],如图1左侧所示。然而,这不会带来巨大的性能提升。确实,共享输入词向量最可能来自于cache。为了将该操作转化成一个level-3 BLAS操作,我们也需要将(input context words)进行batch。这样做是有意义的(non-trivial),因为在原始word2vec实现中每个input word的负样本可能是不同的。我们因此提出“负样本共享(negative sample sharing)”作为策略,其中,我们跨一个关于input words的较小batch进行共享负样本。这样做允许我们将原始的基于乘法的点乘转换成一个matrix-matrix乘法调用(GEMM),如图1的右侧所示。在GEMM的终点,关于所有输入词、目标/样本词的所有词向量的模型更新,必须被写回。执行matrix-matrix乘法(GEMM)而非点乘,可以利用现代架构的所有计算资源,包含向量单元(vector units)和指令集(instruction set)特性,比如:在Intel AVX2指令集上的multiply-add指令。它允许我们极大地利用优化版的线性代数库。

对于跨GEMM调用的多线程,我们可以遵循”Hogwild”-style哲学——每个线程会执行它们在各自线程上独立的GEMM调用,我们允许线程间潜在的冲突——当在GEMM操作结速更新模型时。我们因此将该新的并行scheme命名为“HogBatch”。

其中,原始的word2vec会在每次点乘后执行模型更新(model updates),我们的HogBatch schema则会在执行模型更新前在单个GEMM调用中做多个点乘运算。需要重点关注的是,位置优化(locality optimization)是次要的,但很有用——我们可以降低模型的更新次数。这是因为GEMM操作会对在输出矩阵的单个条目上的更新做一个reduction(在registers/local cache级别);而在原始的word2vec sche中,这样对于相同条目的更新(例如,相同的输入词表示)会在不同时期发生,会有潜在的冲突发生。在第2节中,我们可以看到相应的结果,它展示了HogBatch比原始word2vec有一个更好的扩展。

1.2 分布式内存并行化

为了扩展word2vec,我们也探索了不同的技术来在同一计算集群的不同节点上将计算分布式化。必要的,我们为分布式计算采用数据并行化。由于篇幅受限,这里跳过细节,可以在完整paper中看到。

2.实验

我们比较了三种不同word2vec实现的性能:

  • 1) 原始google word2vec实现:它基于在共享内存系统上的Hogwild SGD https://code.google.com/archive/p/word2vec
  • 2) BIDMach:它在Nvidia GPU上word2vec的已经最佳性能实现 https://github.com/BIDData/BIDMach
  • 3) 我们的基于Intel架构的实现:包括:1.36-core Intel Xeon E5-2697 v4 Broadwell(BDW) CPUS 2.最新的Intel Xeon Phi 68-core Knights Landing(KNL)处理器。

我们在10亿词的bechmark[3]上训练,使用与BIDMatch相同的参数设置(dim=300, negative samples=5, window=5, sample=1e-4, vocab size=111,5011词)。我们在标准的词相似度bechmark WS-353[4]以及google word analogy benchmark[5]上评估了模型的accuracy。所有的实现都能达到相同的accuracy,由于篇幅限制,我们只展示了在吞吐量上的性能,测试单位:百万words/sec。更多实验细节可以完整paper上介绍。我们的实现:https://github.com/IntelLabs/pWord2Vec

图2:(a)原始word2vec和我们实现在一个Intel Broadwell CPU的所有线程上的可扩展性对比 (b) 在多台Intel Broadwell和Knights Landing节点上,我们的分布式word2vec;与BIDMach在N=1, 4个Nvidia Titan-X节点上的对比

图2展示了我们的算法与原始word2vec,在intel BDW和KNL处理器上跨多核扩展的吞吐量,单位:百万 words/sec。当扩展到多线程时(图2a),我们的算法达到接近线性加速,直到36个线程。作为对比,原始word2vec只能线性扩展到8个线程,接下去会慢很多。结果就是,原始word2vec接近1600w words/sec,而我们的实现接近5800w words/sec,这是原始word2vec的3.6X倍加速。更优的性能可以加强我们最优化的效果,有效利用多核计算资源,降低不必要的线程间通讯。当在多节点上扩展时(图2b),我们的分布式word2vec可以线性扩展到16个BDW节点或者8个KNL节点,并且能维持和原始word2vec相同的accuracy。随着节点数的增加,为了维持一个相当的accuracy,我们需要增加模型的同步频率(synchronization frequency)来消除收敛率的损失。然而,这会在扩展性上造成损失,并在32 BDW节点或16 KNL节点上导致一个次线性扩展(sub-linear scaling)。忽略这一点,我们的分布式word2vec可以达到1亿 words/sec的吞吐,只有1% accuracy的损失。据我所已,这是目前在该benchmark上最佳的性能。最终,表1总结了在不同架构上state-of-art实现的最佳表现。

表1 在不同架构上state-of-art实现的性能对比

3.结论

我们提出了一个高性能的word2vec算法”HogBatch”,它基于共享内存和分布式内存系统。该算法特别适合现代多核架构,尤其是Intel的KNL,在它之上我们发现了目前已知的最佳性能。我们的实现是公开并且通用的。

参考

  • 0.