阿里在《One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction》中提出了一种思路来解决不同模块使用同一模型的思路:

1.介绍

传统CTR模型关注于single-domain的prediction,其中ctr模型会服务于单个业务domain,它基于从该domain中收集到的样本进行训练。每个业务domain是一个特定位置(items被展示给移动端app或PC 网站)。在大的商业公司(比如:阿里和亚马逊),经常有许多业务domains需要进行CTR预估来增强用户满意度和提升商业回报。例如,在阿里,商业domains的范围有: 猜你喜欢、Banner、以及其它domains。图1展示了在阿里的一些业务domains。

图片名称

图一

  • Banner:在banner中,会在taobao主页的top banner上展示items。这些item可以是一个商品、商店、或一个品牌。
  • 猜你喜欢:在该模块中,items都是商品,在左或右列被展示给用户

由于不同业务domains会有重叠的用户组(user groups)和items,在这些domains间会存在共性,允许信息共享对于学习每个domain的CTR模型来说是有益的。然而,特定的user group可能会不同,用户行为也会在多个domains内变化。这些差异会导致domain-specific数据分布简单将所有data进行混合并训练单个共享的CTR模型不能很好地在所有domains上工作良好

除了混合数据并训练一个shared model外,另一种简单解法是,为每个商业domain构建一个独立的模型。这种方式也会有一些缺点:

  • (1) 一些业务domains会比另一些domains具有更少的数据。将数据进行分割会忽略domain共性,并造成更少的训练数据,使得模型很难学习
  • (2) 维护多个模型会造成资源大量消耗,并需要更多的人工开销。当商业domains的数目达到上百个时会相当麻烦

本paper的目标是学习一个有效和高效的CTR模型来同时处理多个domains。我们将multi-domain CTR prediction公式化成:recommender需要为M个商业domains \(D_1, D_2, \cdots, D_M\)作为CTR预测。该模型可以将input作为(x, y, p),其中:

  • x是公共特征(像:历史用户行为、用户profile特征、item feature、context feature等),会被多个商业domain使用
  • \(y \in \lbrace 0, 1\rbrace\)是点击label
  • p是domain indicator:它表示该样本是在哪个domain上被收集

注意:(x,y)从domain-specific分布\(D_p\)上抽取得到,分布会随着不同的domains有所不同。multi-domain CTR预测的目标是:构建一个有效且高效的模型,它会为每个domain给出精准的CTR预测,并在资源消耗上开销不大,该模型可以充分利用domain共性,并能捕捉domain间的差异。

一种用于提升学习的可能策略是,使用domain进行多任务学习。如图3所示,multi-domain CTR预测与多任务学习间的不同之处是:multi-domain CTR预测是在不同的domains上解决相同的任务(都是CTR 预测任务),不同domains的label spaces是相同的,数据分布有所不同。作为对比,大多数多任务学习方法则在相同的domain上解决不同的任务,其中label space会不同,例如:联合估计CTR和CVR。由于任务的异构性,已存在的多任务学习方法则关注于在bottom layers上的共享信息,但会在task-specific output layers上保持独立。直接在multi-domain CTR预测上采用multi-task方法可能不会充分利用上在label space上的domain关系,并且会忽略不同domains上不同数据分布。

图片名称

图3 multi-task learning与multi-domain learning的对比。大多数多任务学习方法关注在单个domain内处理不同任务。作为对比,multi-domain learning会为多个domains作出预测来解决相同的任务,例如:ctr预测,其中,label spaces是相同的。直接采用multi-task方法来进行multi-domain CTR预测不能充分利用在label space中的domain关系,并忽略不同domains上的不同数据分布

为了充分利用domain关系,我们提出星形拓朴自适应推荐(STAR Topology Adaptive Recommender: STAR)来进行multi-domain CTR预估。提出的STAR模型是星形拓朴,如图4所示。STAR包含了共享的中心参数,以及domain-specific参数的多个集合。每个domain的最终模型通过将共享中心参数(shared centerd params)和domain-specific参数进行组合来获得。中心参数(centered parameters)被用于学习在所有domains间的总行为,其中公共知识可以被学习到以及在所有domains间转移。domain-specific参数会捕获在不同domains间的特定行为来提升更加refined的CTR预估。star topology会利用跨多个domains间的有效信息转换,来学习domain公共性和差异。该paper会实现STAR模型,它使用在每个layer上对weights做element-wise product来作为组合策略。由于embedding layers会在工业界推荐器上贡献大多数参数量,添加的domain-specific参数对于总参数量来说可被忽略。因此,使用STAR模型来serve多个domains只需要添加少量计算和内存开销,就能达到更好的效果。

主要的贡献如下:

  • STAR:
  • 不同domains具有不同的数据分布,当使用batch normalization时,这会生成不准确的统计。我们提出Partitioned Normalization(PN),它会为不同domains上的样本进行独立normalization来解决该问题。PN会在domain内生成更准确的moments,它会提升model效果。
  • 在mulit-domainCTR预测中,描绘domain信息的features是很重要的。我们提出一个auxiliary network,它会直接将domain indicator作为input,并学习描绘该domain的有embeddings。该embedding会feed给auxiliary network,它比原始network更简单。这会使得domain indicator以一种直接方式影响最终预测。
  • 我们会在工业产品数据集上评估STAR,并将它部署在2020的阿里展示广告系统上。持续的收益验证了STAR的效果。直到现在,STAR的部署带来了6%的CTR和8%的RPM提升。它可以泛化到其它场景上。

2.相关工作

图片名称

图2 (a)对于所有domains的single shared model,方形nodes表示共享模型 (b) 每个domain一个模型,每个模型独立学习。圆形节点表示domain-specific model (c) 提出的STAR,其中每个domain具有特定的参数,也会共享一个公共centered model。边意味着center shared参数与domain-specific参数的组合

3.提出的方法

在本节中,我们首先提出一个关于multi-domain CTR预估的简洁背景介绍。接下是提出方法multi-domain的CTR预估的架构总览。接着我们详细介绍STAR,包括提出的STAR topology network,partitioned normalization以及auxiliary network。

3.1 Multi-domain CTR预估

在序列推荐系统中,推荐会采用用户历史行为、user profile特征、target item feature以及其它features(比如:context feature)作为input。一个用户u在一个item m上点击的预估CTR(\(\hat{y}\))可以计算如下:

\[\hat{y} = f( E(u_1), \cdots, E(u_i); E(m_1), \cdots, E(m_j); E(c_j), \cdots, E(c_k))\]

其中:

  • \(\lbrace u_1, \cdots, u_i \rbrace\)是user features的集合,包括:用户历史行为,user pfofile feature。
  • \(\lbrace m_1, \cdots, m_j \rbrace\)是target item feature的集合
  • \(\lbrace c_1, \cdots, c_k \rbrace\)是其它features的集合
  • \(E(\cdot) \in R^d\)表示embedding layer,它会将sparse IDs映射到可学习的dense vectors上

在将raw feartues映射到低维embeddings上后,惯例是将这些embeddings聚合来获取固定长度的vectors。可以部署不同类型的聚合方法(42, 43)来聚合这些embeddings来抽取用户兴趣并获取固定长度的presentation。获得的representation接着feed到下面的DNN中(例如:一个multi layer fully-connected network)来获得最终的CTR预测。

传统的CTR模型(6,13,23,42,43)通常从一个单一商业domain上获取数据进行训练。然而,真实推荐通常会处理不同的商业domains。推荐系统需要为M个domains \(D_1, D_2, \cdots, D_M\)同时作为CTR预测。该模型会将(x,y,p)作为input,其中:

  • x是在多个domains中用到的公共featrure(比如:用户历史行为、user profile、target item feature);
  • \(y \in \lbrace 0, 1\rbrace\)是点击的label
  • \(p \in \lbrace 1,2, \cdots, M\rbrace\)是domain indicator,它会表示样本来自哪个domain。

注意(x,y)是从domain-specific分布\(D_p\)上抽样得到,该分布对于不同domains会不同。multi-domain CTR预估的目标是:构建单个CTR模型,它可以给出准确的CTR预估,并以较低资源和开销进行serve。

3.2 架构总览

如上所示,忽略domain indicator p,学习单个共享CTR模型会忽略domain的差异性。这会导致次优的模型参数。另一方面,对于不同domain训练不同模型会更差,因为将domains进行分隔,每个模型会得到更少的数据。由于资源开销以及人力开销,在生产环境中为每个domain维护一个独立的模型是不可行的。

最后,我们提出STAR来进行multi-domain CTR预估,它可以更好使用不同domains间的相似性,并能捕获domain上的差异。如图4所示,STAR包含了三个主要部分:

  • (1) partitioned normalization(PN):它会为不同domains间的样本进行单独normalization
  • (2) star topology FC network (star topology FCN)
  • (3) auxiliary network:它会将domain indicator看成是input featrure,并能学到它的语义embeddings来捕获domain差异性

图片名称

图4 single-domain CTR预测以及STAR的对比。在STAR中,partitioned normalization(PN)会为不同domains的样本进行nomalization。被归一化的features接着作为input来feed给下面的star topology FCN中。star topology FCN包含了共享的centered FCN以及多个domain-specific FCNs。每个domain的最终组合模型通过

在训练期间,domain indicator p会首先被抽样,接着会使用一个B个mini-batch实例:

\[(x_1, p), (x_2, p), \cdots, (X_B, p)\]

会从该domain中抽样。STAR会首先将这些input features通过一个embedding layer进行嵌入作为低维vectors。在工业推荐系统中,该模型通常会使用数十亿features(15)进行训练,embedding的参数通常要比其它部分的参数更多。这使得它在不同domains上使用有限数据来学习domain-specific embedding很难。例如:对于在日常任务中用到的模型,embeddings参数要比FC layers上超过10000倍。因此,在STAR模型中,我们将所有domains共享相同的embedding layer,例如:在不同domains上的相同ID features会共享相同的embedding。共享的embedding layer会跨不同的domains,可以极大减少计算和内存开销。

该embeddings接着被pooled和concatenated,来获得B个固定长度的reprensentations。在这之后,B个抽取的representations会通过PN(patitioned normalization) layer进行处理,接着为不同domains进行独立的normalization statistics。normalizated vectors接着作为input被feed到star topology FCN中来获取output。star topology FCN包含了共享的centered FCN以及多个domain-specific FCNs。每个domain的最终模型通过将shared centered FCN和domain-specific FCN进行组合获得

在multi-domain CTR预估中,描述domain信息的features很重要。在STAR模型中,auxiliary network会将domain indicator作为input,并使用描述该domain的其它features来feed到auxiliary network中。auxiliary network的output 会被添加到star topology FCN的output中,来获取最终的prediction。我们让auxiliary network比star topoology FCN更简单,便得让模型以一个直接和简单方式来捕获domain差异。接着我们描述这些组件。

3.3 Partitioned Normalization

如上,raw featrures会首先转换成低维embeddings,接着进行pool和aggregation来获得中间表示。尽管一个实例的中间表示为z,为了训练deep networks更快和更稳定,一个标准的惯例是应用normalization layer到中间表示z上。在所有的normalization方法之间,batch normalization(BN)是一个表示方法,它对于训练非常深的DNN很重要(14,31)。BN会为所有样本使用一个全局的normalziation,它会累积normalization moments,并学习跨多个样本的共享参数。具体的,BN的训练归一化给定如下:

\[z' = \gamma \frac{z-u}{\sqrt{\sigma^2 + \epsilon}} + \beta\]

其中:

  • z’是output
  • \(\gamma\)和\(\beta\)是可学习的scale和bias参数
  • \(\mu, \sigma^2\)是当前mini-batch的均值(mean)和方差(variances)

在testing期间,在所有样本上的均值E和方差Var的移动平均统计,使用如下:

\[z' = \gamma \frac{z-E}{\sqrt{Var + \epsilon}} + \beta\]

…(2)

换句话说,BN会假设:所有样本是独立同分布(i.i.d)的,并在所有训练样本上使用共享的statistics。

然而,在multi-domain CTR预估中,样本假设是在一个特定domain上是局部i.i.d的。在testing期间在BN layers上共享全局的monents和参数,会牺牲domain差异性,并导致模型效果的降级。为了捕获每个domain上唯一的数据特性,我们提出partitioned normalization(PN), 它会为不同domains上单独对statistics和parameters做normalization。具体的,在training期间,假设当前的mini-batch是会第p个domain上抽样得到,我们会计算当前mini-batch的均值(mean)和方差(variances),并将feature进行归一化:

\[z' = (\gamma * \gamma_p) \frac{z - \mu}{\sqrt{\sigma^2 + \epsilon}} + (\gamma + \gamma_p)\]

…(3)

其中:

  • \(\gamma, \beta\)是全局的scale和bias
  • \(\gamma_p, \beta_p\)是domain-specific scale和bias参数

对于每个mini-batch,它会接受最终scale,通过将共享的\(\gamma\)与domain-specific \(\gamma_p\)进行element-wise相乘作为final scale,例如:PN会根据domain indicator自适应地对representation进行缩放。相似的,PN的bias也可以根据domain自适应地计算,它可以通过global bias \(\beta\)和domain-specific bias \(\beta_p\)求和来实现。注意:通过对比BN,PN也会在training期间使用当前mini-batch的moments,但PN会引入domain-specific scale和bias \(\gamma_p, \beta_p\)来捕获domain差异。

除了在scale和bias上的修改外,PN也会让不同domains进累计domain-specific的均值\(E_p\)和方差\(Var_p\)的移动平均。在testing期间,PN会将第p个domain的实验z进行转换:

\[z' = (\gamma * \gamma_p) \frac{z - E_p}{Var_p + \epsilon} + (\gamma + \gamma_p)\]

…(4)

从等式(4)来说,我们可以看到,PN会使用domain-specific的平均\(E_p\)和方差\(Var_p\)来归一化中间表示z。因而,PN会根据domain indicator为条件自适应更改中间表示来捕获差异特性。

3.4 Star Topology FCN

在PN layer之后,表示\(z'\)会被作为input来feed到下面的star topology multi-layer FCN上。如图5所示,提出的star topology FCN会为每个domain包含一个共享的centerd FCN和独立FCNs,因而,FCN的总数是M+1. 第p个domain的最终模型可以通过对shared centered FCN和domain-specific FCN组合来得到,其中,centered参数会学习在所有domains上的通用行为,domain-specific参数会捕获在不同domains上的指定行为,来帮助更多的fefined CTR预测。

图片名称

图5 STAR如何为不同domains生成FCN的参数。STAR包含了一个共享的centered FCN和独立的每个domain的FCNs。对于每个domain,一个neural network layer的最终weights会通过将shared FCN与domain-specific FCN进行element-wise乘法来获得。共享参数会通过所有示例的梯度进行更新,而domain-speciific参数只会通过在该domain下的样本进行更新。

特别的,对于shared FCN,假设W和b分别是NN layer上的weights和bias。对于第p个在omain的specific FCN,假设:\(W_p\)和\(b_p\)是相应layer上的weights和bias。我们将input维度表示为c,output维度表示为d,(例如:\(W, W_p \in R^{c \times d}, b, b_p \in R^d\)),第p个domain的最终的weights \(W_i^*\)和bias \(b_i^*\)可以通过以下获得:

\[W_p^* = W_p \otimes W, b_p^* = b_p + b\]

…(5)

其中,\(\otimes\)表示element-wise乘法。假设:\(in_p \in R^{c \times 1}\)表示来自第p个domain该neural network layer的输入,最终的output \(out_p \in R^d \times 1\)给定如下:

\[out_p = \phi((W_p^*)^T in_p + b_p^*)\]

…(6)

其中,\(\phi\)表示该layer的activation function。shared param和在domain-specific param的组合可以在所有layers上使用。通过这种方式,STAR可以对它的参数基于domain为条件进行调节。

注意,我们会对shared centerd FCN和domain-specific FCN进行组合策略,它的实现是:将每个layer上的weights进行element-wise乘,将bias进行加得到;也可以尝试研究其它策略。shared参数会通过对所有样本的梯度进行更新,而domain-specific参数则只会在使用该domain的样本时才会被更新。如上所示,工业推荐系统的大多数参数,会由embedding layer来贡献,STAR只会增加M个FCNs,量级很少。

3.5 Auxiliary Network

在CTR建模的传统方式下,所有features会被同等看待,并被feed给复杂的模型。在multi-domain CTR预测时,对于模型来说自动学习domain差异是很难的。我们会讨论一个好的multi-domain CTR模型应该具有以下几个特性:

  • (1) 具有考虑上domain特性的信息特征
  • (2) 这些featrures可以很容易并直接影响final CTR预估

背后的直觉是,描会domains的features很重要,因为它可以减少模型难度来捕获domains间的不同。

最后,我们提出一个auxiliary network来学习domain差异。为了讨论与domain特性相关的信息特征,我们将domain features直接看成是ID feature input。domain indicator会首先映射到embedding vector上,并与其它features进行concate。auxiliary network接着会根据concatenated features分别计算forward pass,来获得一维output。我们将star topology FCN的一维output表示成\(s_m\),auxiliary network的output表示成\(s_a\)。\(s_m\)和\(s_a\)会被相加来获得最终logit。接着使用sigmoid来获得CTR预测:

\[Sigmoid(s_m + s_a)\]

…(7)

在我们的实现中,auxiliary network会比主网络更简单,它是一个二层FCN。这种简单结构可以使得domain features可以直接影响final prediction。

\(\hat{y}_i^p\)表示在第p个domain的第i个样本上的预测概率,\(y_i^p \in \lbrace 0, 1\rbrace\)是ground truth。我们会在所有domains上对cross-entropy loss function进行最小化:

\[min \sum\limits_{p=1}^M \sum\limits_{i=1}^{N_p} - y_i^p log(y_i^p) - (1 - y_i^p) log(1 - \hat{y}_i^p)\]

…(8)

4.实验

参考

tx在《Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations》提出了PLE模型:

1.介绍

个性化推荐在在线应用中扮演着重要角色。RS需要包含多种用户反馈来建模用户兴趣,并最大化用户的engagement和satisfaction。然而,由于存在高维问题,用户满意度通常很难通过一个learning算法来直接解决。同时,用户satisfaction和engagement具有许多可以直接学习的主要因素,比如:点击、完成、分享、收藏、评论的概率(click likelihood)。因此,有许多尝试使用MTL多任务学习到RS中来同时建模用户的satisfaction或engagement。实际上,这在工业应用中是主流。

MTL会在单个模型中同时学习多个任务,通过在任务间共享信息来高效地提升学习。然而,在现实推荐系统中,任务经常松散相关或者有冲突,这会导致效果退化(performance deterioration),称为“negative transfer”。在一个真实的大规模视频推荐系统和真实数据集上,我们通过大量实验发现,当任务相关性很复杂时并且有样本依赖时(例如:对比起单任务模型,多个任务不能同时提升,这被称为“跷跷板效应(seesaw phenomenon )”),已存在的MTL模型通常可以提升一些任务,但会牺牲其它任务的效果。

之前的工作主要解决negative transfer,但忽略了seesaw phenomenon,例如:cross-stitch network[16]和sluice network [18]提出,学习静态线性组合 (static linear combinations)来对不同任务的表示进行融合(fuse),这不能捕获样本依赖性(sample dependent)。MMOE[13]应用gating networks来对基于input的bottom experts进行组合来处理任务差异,但忽略了在experts间的差异和交叉。因此,设计一个更强大和高效的模型来处理复杂相关性,并消除seesaw效应很关键。

为了达到该目标,我们提出了一个新的MTL模型,称为渐近层抽取 Progressive Layered Extraction (PLE),它可以很好地利用在shared network设计上的先验知识来捕获复杂的任务相关性(task correlations)。对比起在MMOE中的粗糙共享参数,PLE会显式地将shared experts和task-specific experts进行分离来缓和有害参数干扰(harmful)。再者,PLE会引入multi-level experts和gating networks,并应用progressive separation routing来从lower-layer expert抽取更深的knowledge,并在更高levels上逐渐将task-specific parameters给分离出来。

为了评估PLE的效果,我们在真实工业界推荐dataset以及主要的公开数据集上(包括census-income[5]、synthetic data[13]、以及Ali-CCP)开展了大量实验。实验结果表明:在所有数据集上,PLE的效果要好于state-of-the-art MTL模型,并展示了一致提升。另外,在tencent的大规模视频推荐系统中在线指标的极大提升,表明PLE的优点。

主要的贡献如下:

  • 在大规模视频推荐系统和公开数据集上,通过大量实验发现,一个有意思的seesaw效应已经被观察到:SOTA的MTL模型经常会提升某些任务,但同时牺牲另一些任务的效果,并不能胜过单任务模型(single-task model),因为存在复杂的内在相关性。
  • 使用新的shared learning架构的PLE模型会提升shared learning效率,并能从joint representation learning和information routing的角度,能解决seesaw现象以及negative transfer。除了推荐应用外,PLE可以灵活地应用于许多场景
  • 我们在工业和公开datasets上的大量离线实验评估了PLE的效果。在tencent的大内容推荐平台上的在线A/B test结果也显示了,PLE在SOTA的MTL模型上能有极大提升,在view-count上有2.23%的增长,在watch-time上有1.84%的提升,它可以生成极大的商业收益。PEL已经成功部署到推荐系统中,可以应用到许多其它推荐应用上。

2.相关工作

在推荐系统中,高效的多任务学习模型、以及MTL模型的应用是两个研究领域。在本节中,我们简单讨论在这两个领域的相关工作。

2.1 MTL模型

图片名称

图1 MTL模型的network routing。蓝色四边形和圆形分别表示shared layers和gating network,粉色和绿色四边形表示task-specific layers,粉色和绿色圆形表示不同任务的task-specific gating networks

图1 a)中展示的Hard parameter sharing【2】是最基础和常用的MTL结构,但经常存在negative transfer,因为参数会在多个任务间直接共享而存在任务冲突(task conflicts)。为了解决任务冲突,图 1f)的cross-stitch network[16]和图1g)的sluice network[18]同时提出学习对来自不同的tasks的representations进行选择性的线性组合加权。然而,在这些模型中,representations是通过对所有样本使用相同的static weights进行组合的,并没有被解决seesaw效应。在本工作中,提出了PLE(Progressive Layerd Extraction)模型,并使用带gate结构的progressive routing机制来对基于input的knowledge进行融合(fuse),它可以达到适配不同的inputs的组合。

使用gate结构和attention network来进行信息融合(information fusion)已经存在一些研究。MOE【8】首先提出在bottom上共享一些experts,并通过一个gating network来对experts进行组合。MMOE[13]则对MOE进行扩展,并为每个任务使用不同的gates来获取在MTL中的不同融合权重(fusing weights)。相似的,MRAN[24]会应用multi-head self-attention来学习在不同feature sets上的不同的representation子空间。expert和attention module则在所有tasks间共享,在MOE、MMOE和MRAN中不存在task-specific的概念。相反,我们提出的CGC(Customized Gate Control)和PLE模型会对task-common参数和task-specific参数进行显式分离(explicitly),并避免由复杂任务相关性导致的参数冲突。对于MMOE来说,尽管存在理论上的可能性收敛到我们的网络设计,在网络设计上的先验知识(prior knowledge)是很重要的,MMOE在实际上很难发现收敛(convergence)。Liu【10】应用task-specific attention networks来对选择性地对shared features进行融合(fuse),但不同的任务在attention network中的融合(fusion)之前仍会共享相同的representation。之前的network的研究都没有显式地解决representation learning和routing的joint optimization问题,特别是在一个 inseparable joint(非独立联合)方式,而该工作会首次在joint learning和routing的通用框架上提出一个新的progressive separation方式

存在一些工作,使用AutoML的方式来寻找一个好的network结构。SNR framework【12】通过二元随机变量来控制在sub-networks间的connections,并使用NAS来搜索最优的结构。相似的,Gumbel-matrix routing框架【15】则学习MTL模型的routing并将它公式化成一个使用Gumbel-Softmax trick的二元matrix。像MDP的Modeling routing process,会使用MARL[19]来训练routing network。在这些工作的network结构使用特定的简化猜想而设计的,不够通用。在[17]中的routing network会为每个任务在每个depth选择不超过一个function block,这会减小模型的表现力。Gumbel-matrix routing network[15]则提出在representation learning上进行constraint,因为每个任务的input需要对每个layer上的representation进行merge。另外,在这些frameworks中的fusing weights不适合对不同的inputs,对于这些方法来说寻找最优的结果带来的昂贵搜索开销是另一个挑战。

2.2 RS中的MTL

为了更好地利用多种用户行为,MTL learning已经被广泛应用到推荐系统中,并达到了大量提升。一些研究则会集成传统的推荐算法:比如:在MTL中集成CF和MF。Lu[11]和Wang[23]则引入regularization在隐表示上。

。。。

3.推荐中的seesaw效应

negative transfer是在MTL中的一个常见现象,特别是对于松散相关的任务【21】。对于复杂的任务相关性,特别是样本依赖相关模式,我们也观察到:当提升shared learning效率并达到比相应的single-task模型的极大提升时,会有seesaw现象。(对于当前MTL模型来说,在所有任务上获得提升是很难的)。在本节中,我们基于tencent的大规模视频推荐系统,介绍和调查了seesaw效应。

3.1 视频推荐的MTL ranking系统

图片名称

图2 视频推荐的一个MTL ranking系统

在本节中,我们简单引入服务tencent news的MTL ranking系统,它是世界最大的内容平台,基于用户的多样化反馈来推荐新闻和视频给用户。如图2所示,有多个目标来建模不同的用户行为:比如:在MTL ranking系统中的click、share、comment。在offline的训练过程, 我们会基于从user logs中抽取的用户行为来训练MTL ranking模型。接着,对于每个任务,基于ranking module的weighted-multiplication会将这些预测分(predicted scores)进行组合到一个最终分,通过等式1的组合函数,最终推荐top-ranked videos给用户。

\[score={p_{VTR}}^{w_{VTR}} \times {p_{VCR}}^{w_{VCR}} \times {p_{SHR}}^{W_{SHR}} \times \cdots \times {p_{CMR}}^{W_{CMR}} \times f(video\_len)\]

…(1)

其中:

  • 每个w:决定了每个predicted score的相对重要性
  • \(f(video\_len)\):是一个非线性变换函数,比如:在视频长度(video duration)上的sigmoid或log函数
  • \(w_{VTR}, w_{VCR}, w_{SHR}, w_{CMR}\):是通过在线实验搜索优化的超参数,用来最大化online metrics。

在所有任务之外,播放完成度VCR(View Completion Ratio)播放通过率VTR(View-Through Rate)是分别是两个重要目标建模关键在线指标:观看数(view-count)和观看时长(watch-time)。特别的,VCR预测是一个回归任务(regression task),它使用MSE loss来预测每次view的完成度。VTR预测是一个二分类任务,它使用cross-entropy loss来预测一个valid view的概率,它被定义成:超过一定观看时间阈值的一次播放行为。在VCR和VTR间的相关模式(correlation pattern)很复杂。首先, VTR的label是一个关于播放动作(play action)和VCR的组合因子,只有watch time超过阈值的一个play action会被看成是一个有效view。第二,play action的分布也复杂,因为在wifi下来自auto-play场景的样本会高于play的平均概率,而来自显式点击场景(没有auto-play)的其它样本会具有更低的play概率。由于复杂和强样本依赖的相关性,当联合建模VCR和VTR会观察到一个seesaw效应。

3.2 在MTL中的Seesaw效应

为了更好地理解seesaw效应,我们会使用single-task模型和SOTA MTL模型来执行实验分析,在复杂相关的VCR和VTR任务组上。除了hard parameter sharing、cross-stitch、sluice network、mmoe外,我们也评估了两个独创的结构:非对称共享(asymmetric sharing)和定制共享(customized sharing)。

  • 非对称共享(asymmetric sharing):是一种新的sharing机制,用来捕获在任务间的非对称关系。根据图1b,bottom layers会在任务间的非对称共享,具体某个任务的表示需要共享依赖于任务间的关系。公共融合操作(fusion)(比如:concatenation、sum-pooling、average-pooling)可以用来组合不同任务的bottom layers的outputs
  • 定制共享(Customized Sharing):图1c会显式地将shared parameters和task-specific parameters进行分离,以避免内在冲突和negative transfer。对比起single-task模型,customized sharing会添加一个shared bottom layer来抽取sharing信息,并将shared bottom layer与task-specific layer的concatenation后feed给相应task的tower layer。

图3展示了实验结果,其中右上角的泡泡表示具有更好的效果,具有更高的AUC和更低的MSE。AUC或MSE具有0.1%的提升,会对整个系统的在线指标具有极大提升【4,6,14】。可以看到硬参数共享(hard parameter sharing)和cross-stitch network会存在极大的negative transfer问题,在VTR上效果最差。通过独创的共享机制来捕获非对称关系,asymmetric sharing可以达到在VTR上的极大提升,但在VCR上出现极大降低,这与sluice network类似。由于shared layers和task-specific layers的显式分隔,customized sharing可以在single-task模型上提升VCR,而在VTR上只有轻微的损耗。MMOE则会在两个任务上同时对single-task进行提升,但VCR的提升只有:+0.0001. 尽管这些模型会在这两个任务上具有不同的学习效率(learning efficiency),我们可以很明确地观察到seesaw效应:一个任务的提升会导致其它任务的效果退化,因为没有一个baseline MTL模型依完全落在第二象限。在公开的benchmark datasets上的具有SOTA模型的实验,也会具有明显的seesaw效应。细节会在第5.2节中提供。

图片名称

图3

如前所示,VCR和VRT间的相关模式是很复杂并且样本依赖(sample depedent)的。特别的,VCR和CTR间存在一些偏序关系(partially ordered relations),不同样本表现出不同的相关度。因而,cross-stitch和sluice network会为所有样本使用相同的static weights来共享representations,不能捕获样本依赖,存在seesaw效应。MMOE通过使用gates获得来基于input的fusing weights,在一定程度上会处理任务差异(sample difference)和样本差异(sample difference),这会胜过其它baseline MTL模型。然而,在MMOE中experts会在所有tasks间共享,没有差异,这不能捕获复杂任务相关性,这会对某些tasks带来有害噪音。再者,MMOE会忽略在不同experts间的交叉,这会进一步限制joint optimization的效果。除了VCR和VTR外,在工业界推荐应用中有许多复杂相关任务,因为人类行为经常微妙且复杂,例如:在在线广告和电商平台中的CTR预测和CVR预测。因此,一个强大的网络需要考虑在experts间的差异(differentiation)和交叉(interactions),这对于消除由复杂任务相关性带来的seesaw效应来说很重要。

在本paper中,我们提出了一个PLE(Progressive Layered Extraction)模型来解决seesaw效应和negative transfer。PLE的关键思想是:

  • 首先,它会显示地将shared experts和task-specific experts进行分离,来避免有害的参数干扰。
  • 第二,multi-level experts和gating networks会被引入来对多个抽象表示(abstract representations)进行融合。
  • 最后,它会采用一个新的progressive separation routing来建模在experts间的交互,并达到在复杂相关任务间更高效的知识迁移。

如图3所示,PLE在多个任务上要比MMOE取得更好的提升。结构设计和实验的细节在第4节。

4.PLE(PROGRESSIVE LAYERED EXTRACTION)

为了解决seesaw效应和negative transfer,我们提出了一个Progressive Layered Extraction(PLE)模型,它使用一个新的sharing结构设计。

  • 首先,一个CGC(Customized Gate Control)模型会显式地对提出的shared experts和specific experts进行分离。
  • 第二,CGC被扩展到一个通用的PLE模型中,它使用multi-level gating networks和progressive separation routing来进行更高效的信息共享和joint learning。
  • 最终,对于MTL模型来说,loss function会被最优化以便更好地处理joint training的实际挑战。

4.1 CGC(customized Gate Control)

受customized sharing的启发,它在single-task上,通过显式分离shared layers和task-specific layers来达到与single-task模型相似的效果。如图4所示,在bottom有一些experts modules,在顶部有一些task-specific tower networks上。每个expert module由多个称为experts的子网络(sub-networks),在每个module中的experts的数目是一个用来tune的超参数。相似的,一个tower network也是一个multi-layer network,宽和高是超参数。特别的,在CGC中的shared experts负责学习共享模式(shared patterns),而对于specific tasks的模式会由task-specific experts来抽取。每个tower network会从shared experts和它自己的task-specific experts中吸收知识,这意味着shared experts的参数会被所有任务影响,而task-specific experts的参数具受相应specific task的影响。

图片名称

图4 CGC模型(Customized Gate Control)

在CGC中,对于选择性融合(selective fusion),shared experts和task-specifc experts通过一个gating network进行组合。如图4所示,gating network的结构是基于一个使用softmax作为activation function、input会作为selector的single-layer feedforward network,用来计算选中vectors的weighted sum,例如:experts的outputs。更精准的,task k的gating network的output可以公式化为:

\[g^k(x)= w^k(x) s^k(x)\]

…(2)

其中:

  • x是input representation
  • \(w^k(x)\)是一个weighting function,通过线性变换和一个Softmax layer来计算task k的weight vector:
\[w^k(x) = Softmax(W_g^k x)\]

…(3)

其中:

  • \(W_g^k \in R^{(m_k + m_s) \times d}\)是参数矩阵
  • \(m_s\)和\(m_k\)分别是shared experts以及第k个specific experts的数目,d是input representation的维度。
  • \(S^k(x)\)是一个selected matrix,它由所有selected vectors组成,包括shared experts和第k个specific experts:
\[S^k(x) = [E_{(k,1)}^T, E_{(k,2)}^T, \cdots, E_{(k,m_k)}^T, E_{(s,1)}^T, E_{(s,2)}^T, \cdots, E_{(s,m_s)}^T ]^T\]

…(4)

最后,第k个任务的prediction是:

\[y^k(x) = t^k (g^k(x))\]

…(5)

其中:

  • 第\(t^k\)表示任务k的tower network。

对比起MMOE,CGC会移除在一个任务的tower network与其它任务的task-specific experts间connections,允许不同类型的experts来集中高效学习不同的知识,无需干扰。结合gating networks的好处,来基于input动态融合representations,CGC会达到在tasks间更灵活的balance,更好处理任务冲突和样本依赖相关性。

4.2 PLE(Progressive Layered Extraction)

CGC会显示对task-specific和shared components进行分离。然而,在deep MTL中,learning会随着越来越深的语义逐渐走形,通常对于立即表示(intermediate representations)是否应该被看成是shared或task-specific来说是不清晰的。为了解决该问题,我们使用PLE将CGC进行泛化。如图5所示,在PLE中有multi-level extraction networks来抽取higher-level的共享信息。除了对task-specific experts的gates外,extraction network也会为shared experts使用一个gating network来组合来自该layer的所有experts的知识。因而,在PLE中不同任务的参数在像CGC这样的early layer上不会完全分离,但会在upper layers上会逐渐分离。在higher-level extraction network中的gating networks会采用gates的融合结果作为selector,而非raw input,这是因为它可以提供更好的信息来选择从更高level experts中抽取到的知识。

图片名称

图5 Progressive Layered Extraction (PLE) Model

在PLE中weighting function、selected matrix、以及gating network的计算与CGC中的相同。特别的,任务k在第j个extraction network中的gating network的公式为:

\[g^{k,j}(x) = w^{k,j}(g^{k,j-1}(x))S^{k,j}(x)\]

…(6)

其中:

  • \(w^{k,j}\):是task k的weight function,它使用\(g^{k,j-1}\)作为input,
  • \(S^{k,j}\):是选中task k在第j个extraction network的matrix。

值得注意的是,在PLE的shared module的selected matrix与task-specific modules非常不一样,因为它在该layer中包括了所有shared experts和task-specific experts。

在计算所有gating networks和experts后,我们可以最终获得在task k的prediction:

\[y^k(x) = t^k(g^{k,N}(x))\]

…(7)

有了multi-level experts和gating networks,PLE可以为每个task抽取和组合更深的语义表示来提升泛化性(generalization)。如图1所示,对于MMOE来说,routing策略是完全连接的,对于CGC来说则是早期分离的(early separation)。不同的是,PLE会采用一个progressive separation routing来从所有更低layer的experts抽取信息,抽到更高level的shared knowledge,并渐近地将task-specific参数分离出来。progressive separation的过程与此类似:从化学药品中为期望产品抽取化合物的抽取过程。在PLE的知识抽取和转换的过程期间,更低level的表示会jointly extracted/aggregated,并在更高level的shared experts上进行routed,获取共享知识和渐进地分发给特定的tower layers,以便达到更高效和灵活的joint representation learning和sharing。尽管MMOE的full connection routing看起来像是CGC和PLE的一个通用设计,在第5.3节中的实际研究表明,MMOE不能收敛到CGC或PLE的结构,尽管存在可能性。

4.3 MTL的joint loss optimization

当设计高效的网络结构时,我们接着关注于以end-to-end的方式联合训练task-specific和shared layers,一种常用的joint loss公式是:对每个单独的task的losses的加权求和:

\[L(\theta_1, \cdots, \theta_K, \theta_s) = \sum\limits_{k=1}^K w_k L_k(\theta_k, \theta_s)\]

…(8)

其中:

  • \(\theta_s\)表示共享参数,K表示任务数
  • \(L_k, w_k, \theta_k\):分别是任务k的loss function、loss weight、task-specific parameters

然而,由于存在许多问题,在实际中对MTL models做出joint optimization很具挑战。在本paper中,我们会对joint loss function进行最优化来解决在真实推荐系统中遇到的两个问题。

第一个问题是:由于顺序的用户动作产生的不同类的样本空间(heterogeneous sample space)。例如,用户在点击一个item后只会分享或评论。这会导致如图6所示的不同样本空间。

图片名称

图6 不同任务的training space

为了联合训练这些任务,我们会考虑所有任务的样本空间的联合(union)作为整个训练集,而当计算每个任务的loss时,会忽略在它之外样本空间的样本:

\[L_k(\theta_k, \theta_s) = \frac{1}{\sum_i \sigma_k^i} \sum\limits_i \sigma_k^i loss_k(\hat{y}_k^i (\theta_k, \theta_s), y_k^i))\]

…(9)

其中:

  • \(loss_k\)是任务k基于prediction \(\hat{y}_k^i\)、以及ground truth \(y_k^i, \sigma_k^i \in \lbrace 0, 1 \rbrace\)计算的样本i的的loss,它表示样本i位于task k的样本空间。

第二个问题是:一个MTL模型的效果对于在训练过程中loss weight的选择是否敏感【9】,因为它决定了在joint loss上每个任务的相对重要性。实际上,这会观察到:每个任务在不同的训练过程会具有不同的重要性。因此,我们会为每个task考虑loss weight作为一个动态权重(dynamic weight),而非一个static权重。首先,我们会为task k设置一个初始的loss weight \(w_{k,0}\),接着在每个step后基于updating ratio \(\gamma_k\)更新它的loss weight:

\[w_k^{(t)} = w_{k,0} \times \gamma_k^t\]

…(10)

其中:

  • t表示training epoch
  • \(w_{k,0}\)和\(\gamma_k\)是模型的超参数

5.实验

在这部分,会在腾讯大规模推荐系统以及公开benchmark datasets上执行大量离线和在线实验来评估提出模型的有效性。我们也在所有gate-based MTL模型上分析了expert的使用,以便理解gating networks的工作机制,并验证CGC和PLE的结构。

5.1 在视频推荐上的评估

在本节中,我们会使用复杂和正常相关的任务组作为在视频推荐系统上的多个任务,来评估提出模型的效果。

5.1.1 Dataset

我们通过在腾讯新闻从视频推荐系统上抽样用户日志,收集了一个工业界dataset,它具有8天连续。它具有4.69亿用户,268w个视频,并在数据集上具有9.95亿样本。如前所述,VCR、CTR、VTR、SHR(share rate)、CMR(comment rate)是在该dataset中建模的任务。

5.1.2 Baseline模型

在该实验中,我们在单任务、asymmetric sharing、customized sharing上对比了CGC和PLE,其中SOTA MTL模型包括:cross-stitch network、sluice network,MMOE。由于multi-level experts会在PLE中共享,我们会将MMOE扩展到ML-MMOE(multi-layer MMOE),如图1所示,通过添加multi-level experts来进行公平对比。在ML-MMOE中,更高level的experts会对来自更低level的experts的representations进行组合,所有gating networks会共享相同的selector。

5.1.3 实验setup

在该实验中,VCR prediction是一个regression task,它使用MSE loss进行训练和评估;在其它动作上的任务建模都是二分类任务,它们使用cross-entropy loss进行训练,并使用AUC进行评估。在首个7天的样本会用来进行训练,其余样本是test set。对于在MTL模型和single-task模型中,对于每个task,我们采用一个3层的MLP network,它使用RELU activation和hidden layer size为[256,128,64]。对于MTL模型,我们实现了expert作为一个single-layer network,并对以下的model-specific超参数进行调参:shared layers的数目、在hard parameter sharing和cross-stitch network上的cross-stitch units,在所有gate-based模型中的experts数目。对于公平比较,我们实现了所有multi-level MTL模型作为two-level models来保持相同深度的模型。

图片名称

表1

基于公平的评估指标(比如:AUC和MSE),对于一个特定任务,我们定义了一个MTL gain的指标来量化评估多任务学习要比单任务模型的好处。如等式11所示,对于一个给定的task group以及一个MTL模型q,在任务A上q的MTL gain被定义成MTL模型q对比相同网络结构和训练样本的single-task model的效果提升。

\[MTL gain = f(n) = \begin{cases} M_{MTL} - M_{single}, & \text{M is a positive metric} \\ M_{single} - M_{MTL}, & \text{M is a negative metric} \end{cases}\]

…(11)

5.1.4 复杂相关性的任务评估

为了更好捕获主要的在线engagement metrics,例如:view count和watch time,我们首先在VCR/VTR的任务组上开展实验。表1展示了实验结果,我们会以粗体表示最好得分,效果下降则以灰色。在VTR上,CGC和PLE可以极大胜过所有其它baseline模型。由于在VTR和VCR间复杂相关系,我们可以很明显地观察到seesaw效应,它使用zigzag灰色分布,一些模型提升VCR但会伤害VTR;而一些则提升VTR但伤害VCR。特别的,MMOE会同时提升在single-task上的任务,但这些提升是不大的,而ML-MMOE则会提升VTR但会伤害VCR。对比MMOE和ML-MMOE,CGC会提升VTR更多,提升VCR很少。最后,PLE会收全省到相同的一步,并在上述模型上达到极大的提升,它具有最好的VCR MSE,以及其中一个最好的VTR AUCs。

图片名称

表2

5.1.5 在正常相关性的任务上评估

由于CGC和PLE在处理真实复杂相关性的任务上表现很好,我们会进一步在具有正常相关性模式的CTR/VCR的一个通用任务组上进行验证。由于CTR和VCR的目标是建模不同的用户动作,在它们间的相关性更简单些。如表2所示,事实上,除了cross-stitch之外的所有模型,在两种任务上都表现出正向的MTL gain,这表明:在CTR和VCR间的相关性模式并不复杂,不会具有seesaw效应。在该场景中,CGC和PLE仍能在两种任务上极大地胜过所有SOTA模型,并具有显著的MTL gain,这验证了CGC和PLE的收益是通用的,可以有效达到更好的共享学习,并能在多个任务场景下一致提供增量的效果提升,不仅仅是那些具有复杂相关性的任务,同时也包括普通相关的任务。

图片名称

表3

5.1.6 online A/B testing

在VTR和VCR的任务组上我们进行仔细的online A/B test,达4周。我们在c++深度学习框架上实现了所有MTL模型,随机分配用户给不同的buckets,并在每个分桶上部署一个模型。最后的ranking score通过多个predicted scores的组合函数来获得(如第3节所示)。表3展示了MTL models在single-task模型上的提升(total view count per user/ total watch time per user)。它表明:对比baseline models,CGC和PLE能在online metrics上能达到极大的提升。另外,在所有在线指标上,PLE都要极大好于CGC,这表明:在MTL中,AUC或MSE上的小提升可以为在线metrics带来极大提升。PLE已经部署在tencent平台上。

5.1.7 多任务上的评估

最后,我们在多个挑战性场景上探索了CGC和PLE的可扩展性。除了VTR和VCR外,我们会引入SHR(share rate)和CMR(comment rate)来建模user feedback actions。可以很灵活地扩展CGC和PLE到多任务cases中,只要为每个task添加一个task-specific expert module、gating network、tower network即可。如表4所示,对比起single-task model,CGC和PLE几乎在所有task group上会达到极大提升。这表明CGC和PLE仍展示了促进任务协同的好处,对于超过2个任务的通用场景,仍可以阻止negative transfer和seesaw效应。PLE的效果在所有cases上都要极大好于CGC。因此,PLE展示了在跨不同sizes的task groups上提升shared learning efficiency的更强的收益。

图片名称

表4

图片名称

图7

5.2 public datasets上的评估

5.3 Expert使用分析

为了探索experts是如何通过不同gates间进行聚合的,我们在工业界dataset上的VTR/VCR task group上,研究了所有gate-based models的expert utilization。出于简洁性和公平对比,我们会考虑将每个expert看成是一个single-layer network,在CGC和PLE的每个expert module上保持一个expert,而在MMOE和ML-MMOE的每个layer则会保持三个experts。图8展示了在所有testing data上每个gate使用的experts的权重分布,其中:bars的高度以及垂直short lines分别表示weights的均值和标准差。它表明:VTR和VCR在CGC中会使用极不同的weights来组合experts,而在MMOE中则使用非常相似的weights,这表明:CGC的良好设计结构可以帮助达到在不同experts间更好的区分度。另外,在MMOE和ML-MMOE中所有experts都有非零权重,这进一步表明:对于MMOE和ML-MMOE来说,在没有先验知识的情况下,很难去收敛CGC和PLE的结构,尽管存在理论可能性。对比起CGC,在PLE中的shard experts对tower networks的input具有更大的影响,特别是在VTR任务上。实际上,PLE的效果要好于CGC,这表明在更高level上共享更深的representations的价值。换句话说,需要在任务间共享的更深语义表示,因此 一个progressive separation routing可以提供一个更好的joint routing和learning scheme。

图片名称

图8

6.

参考

youku在《Deep Time-Stream Framework for Click-Through Rate Prediction by Tracking Interest Evolution》提出了一个兴趣演进的框架。

摘要

CTR预测在像视频推荐等工业应用中是一个必要的任务。最近,deep learning模型被用来学习用户的整体兴趣表示(overall interests),然而会忽略兴趣可能会随时间动态变化的事实。我们认为:有必要在CTR模型中考虑上连续时间信息(continuous-time information)来从丰富的历史行为中跟踪用户兴趣。在本paper中,我们提出了一个新的Deep Time-Stream framework(DTS),它会通过一个常微分方程(ODE: ordinary differential equation)来引入time information。DTS会使用一个neural network来持续建模兴趣的演化,它可以来解决用户兴趣会随它们的历史行为动态表征带来的挑战。另外,我们的框架可以通过利用额外的Time-Stream Module,无缝地应用到任意deep CTR模型上,对原始CTR模型不会做任何变改。在公开数据集的实验、以及工业数据集的表现看,可以达到很好的效果。

介绍

CTR预测目标是估计一个用户在一个给定item上的概率,在学习界和工业界这是一个备受关注的问题。以在线视频为例,一个CTR算法会提供给用户数千个不同类目的视频,因此,精准捕获用户的兴趣很重要,可以提升用户的留存和收益。

为了达到该目标,基于用户历史点击进行建模用户兴趣会影响用户偏好。为了抽取用户兴趣的表示,提出了许多传统模型、以及deep模型。尽管这些模型在建模用户整体兴趣时达到了极大成功,它们会忽略用户兴趣的动态变化。为了进行一个更精准的结果,RNN-based方法提出捕获在user-item interaction序列中的依赖。然而,这些方法只考虑用户行为的顺序,忽略在行为间的时间间隔(time interval),它对于预测用户行为是很重要的信息。在图1中,作为示例,Mike通常会在白天观看关于Donald Trump的视频,在晚上享受Taylor Swift的音乐视频,根据他的行为的timestamps。因而,将Mike的playlog看成一个点击视频序列,会忽略他的潜在兴趣随时间的变化。不幸的是,现有的CTR模型不能建模在连续时间上的模式,因为大多数模型不知道时间间隔(time interval)。

图片名称

图1

另外,在inference阶段,只预测下一次点击(next click)而不考虑执行action时的时间会有问题。将用户行为的时间合并进去,比如:建模在行为间的逝去时间间隔(elapsed time interval)的效果,这对于精准建模用户兴趣非常重要。例如,在图1中,如果Mike在9 p.m.(下午)观看了Taylor的视频,很可能他会在几小时内观看另一个Taylor的视频(而非Donald),而在半天后观看Donald的视频概率会更大些。然而,传统方式总是在任意时刻上获得相同的精准预测。

基于前面的观察,我们认为在CTR模型上考虑上time-stream信息(比如:连续时间信息:constinous-time info)很重要。因此,我们提出了一种新的Deep Time-Stream framework(DTS),它会将time-stream信息引入到CTR模型中。因此,我们提出了一种新的Deep Time-Stream框架(DTS)。Time-stream信息可以通过常微分方程(ODE)进行公式化,它指的是一个描述在依赖变量的导数和独立变量间的关系的函数。特别的,DTS会使用ODE来建模用户潜在兴趣的演化,它会将用户在兴趣状态随时间进行求导参数化,比如:ODE的解会描述用户兴趣的动态演化。另外,DTS会具有以下能力:统一在time-stream(通过点击的timestamp进行)上的用户历史行为(已点击什么)和target items(将点击什么),因而根据给定的下一时间(next time)做出inference,并提供一个更加精准的CTR预测。为了达到最小的模型变更代价(model-altering cost),ODE会被打包成一个Time-Stream Module,它可以应用到任意的deep CTR模型上。该paper的贡献如下:

  • 提出了一个新的DTS框架,会将用户的latent interest evolution建模成一个ODE,它会极大提升模型的表达能力,可以更好地捕获用户兴趣的演进
  • DTS可以在任意时间生成用户的feature,因而对于适配评估很灵活
  • Time-Stream Module可以轻易地转成已存在的CTR模型,无需对原始框架做变化

1.背景

在机器学习中,有效管理一类hypotheis(线性或非线性),可以表示data patterns。ODEs可以被用于一个hypothesis。考虑在\(R^d\)中的微分方程:\(\frac{dz}{dt} = f(z, t), z(0)=z_0\),z在time t上的解被定义成\(z(t)\)。在监督学习中的ODE方法背后的基本思想是,调整f,使得z(t)可以生成拟合该数据所需的非线性函数。

实际上,Chen 2018的DNN被看成是discrete ODE,他们的迭代更新可以被看成是关于一个连续转换(continuous transformation)的Euler discretization。在另一方面,neural ODEs是一组DNNs模型的family,可以被解释成一个关于ResNets或RNN的continous等价。为了观察该现象,我们会将在ResNets或RNNs中的一个layer t到t+1的hidden state看transformation看成是:

\[h_{t+1} = h_t + f_t(h_t)\]

…(1)

在ResNets中,\(h_t \in R^d\)是在layer t的hidden state;\(f_t: R^d \rightarrow R^d\)是一个差值函数(differentiable function),它会保留\(h_t\)的维度。在RNNs中,\(h_t \in R^d\)是第t个RNN cell上的hidden state,它更新时会抛出一个函数\(f_t: R^d \rightarrow R^d\)。\(h_{t+1} - h_t\)的差可以看成是一个在timestep \(\Delta t = 1\)上的导数\(h'(t)\)的离散化(discretization)。假设:\(\Delta t \rightarrow 0\),我们可以看到:动态的hidden state可以通过一个ODE进行参数化:

\[\underset{\Delta t \rightarrow 0}{limit} \frac{h_{t+\Delta t} - h_t}}{\Delta t} = f(h, t)\]

z(t)的解或h(t)可以使用一个ODE solver进行求解,会使用许多复杂数值方法来选择:比如:linear multi-step方法、RUnge-kutta methods或adaptive time-stepping。以上方法在deep learning中很有用,因为他们可以自适应地选择network的layers。这里要注意的不是solver本身,而是数据的表示。因此我们将solver看成是一个黑盒的differential equation solver:

\[z_{t_1}, ..., z_{t_N} = ODE_{solver}( z_{t_0}, f, \theta_f, t_1, \cdots, t_N)\]

…(2)

其中,\(\theta_f\)是关于f的参数。

在下一节中,我们会展示,ODEs是如何被用来建模用户兴趣演化的动态性的,以及如何让ODEs在训练时能够稳定。

2.Deep Time-Stream Framework

在本节中,我们会描述DTS。首先将CTR公式化成一个二分类问题。给定数据样本:

\[x = (x^U, x^V, x^P) \in X\]

其中: \((x^U, x^V, x^P)\)分别表示来自User behavior、target Video以及user Profiles这些不同字段的one-hot vectors的concatenate。

再者,每个字段包含了一个关于点击行为的列表:

\[x^U = [(v_1, c_1); (v_2, c_2); \cdots; (v_N, c_N)]\]

其中:

  • \(x_i^U = (v_i, c_i)\)表示发生在time \(t_i\)的第i个行为上
  • video \(v_i\)以及相应的category \(c_i\),其中N是user的历史行为的数目;
  • \(x^V\)表示target video和它的category \(x^V = (v_{N+1}, c_{N+1})\),等式的成立是因为:target video会随着第(N+1)的用户点击而发生,potential click的预测时间被看成是next time \(t_{N+1}\)。

因而,我们会统一在time stream上的用户历史行为和target video,通过timestamps来表示t:

\[t = [t_1, t_2, \cdots, t_N, t_{N+1}]\]

User Profile \(x^P\)包含了有用的profile信息,比如:gender、age等。Label \(y \in Y\)表示用户是否点击是指定的视频,\(y=1\)表示点击,\(y=0\)表示未点击。CTR的目标是学习一个从X到Y的mapping \(h \in H\),其中,\(H\)表示hypothesis space,\(h: X \rightarrow Y\)表示预测用户是否将点击该视频。预测函数h可以通过以下objective function进行最小化学到:

\[\underset{h}{min} \sum\limits_{(x,y) \in X \times Y} L(h(x;t), y)\]

…(3)

其中,L是epmirical loss,它会在以下子部分引入。

2.1 通用框架

我们提出的框架DTS可以看成是一个Base-Model加上Time-Stream Module,如图2所示。BaseModel被看成是一个已经存在的deep CTR模型,比如:DNN,PNN,DIN等。除了base model外,Time-Stream Module会收集所有events的timestamps,包括:一个用户在过去的历史点击时间、以及在预测时的用户潜在点击时间。注意,后半部分在已存在的CTR模型中会被忽略。另外,Time-Stream Module会通过一个ODE来跟踪潜在兴趣演进,来计算一个增强型输入(enhanced input),它会引入continuous-time信息,并保留base inputs的维度。因此,在DTS框架中,任意的deep CTR模型可以被用于BaseModel,无需做任何更改。对比BaseModel,它会输入在用户点击item事件上的一个点击概率,DTS可以通过在给定时间上用户点击item事件的点击概率,从而对output做出提升。

图片名称

图2

在面,我们会介绍BaseModel,并引入Time-Stream Module来捕获兴趣,并建模兴趣演进。

2.2 BaseModel

2.3 Time-Stream Module

用户兴趣会随时间动态变化。BaseModel会通过一个在点击item feature上的pooling操作获取一个表示向量,但会忽略时间信息。动态pattern的缺失会限制用户行为特征的能力,这对于建模用户兴趣很重要,因为用户点击items是一个用户在对应时间上对兴趣的表示。对于BaseModel,如果对continous pattern的能力缺失会导致在建模动态用户兴趣时的inaccuracy。

是否存在优雅的方式来表示一个用户的real-time兴趣,并建模动态兴趣演化的pattern?continous-time evolving激发我们设计了一个称为Time-Stream Framework的方法,它会利用ODE来建模动态兴趣。ODE在物理、生物、化学、工程和电子领域被广泛应用,如果ODE可解,会给出一个初始点(initial point),它可以决定所有它的future positions,这些points被称为“trajectory或orbit”。本文中我们使用ODEs作为hypothesis class,其中trajectory表示一个潜在的兴趣演化轨迹(lantent interst evolution trace)。在等式1中,ODE可以是通用的RNNs形式,RNNs可以被认为是continuous ODE的一个离散版本。continous ODE具有一些优点,比如:评估很灵活,相应的可以自适应地选择RNN的长度。另外,我们也可以使用高级数值方法来训练,比如:multi-grid方法、parallel shooting方法。图3展示了Time-Stream Module的架构。

图片名称

图3 Time-Stream Module的结构。DTS会保持BaseModel的基本框架,可以继承原先的效果。另外,DTS会扩展Time-Stream module,将latent time state \(z_t\)建模成一个ODE。Decoder \(\phi\)会将\(z_t\)映射到embedded space,并混合上embedding来增强embedding的quality。Guide loss被设计用来帮助hidden state的收敛

为了通过ODE的一个latent trajectory来表示兴趣演进,会使用一个可微函数,\(\frac{d z(t)}{dt} = f(z(t), t; \theta_f)\)来表示兴趣演化率,其中:\(\theta_f\)是关于f的参数。因此,给定一个initial state \(z_{t_0}\),ODE的trajectory可以使用等式(2)提到的一个solver来进行求解:

\[z_{t_1}, \cdots, z_{t_N}, z_{t_{N+1}} = ODE_{solver}(z_{t_0}, f, \theta_f, t_1, \cdots, t_N, t_{N+1})\]

…(5)

其中,\(z_{t_1}, \cdots, z_{t_N}, z_{t_{N+1}}\)是ODE的解,它可以描述dynamics f在每个观察时间\(t_1, \cdots, t_N, t_{N+1}\)的latent state。由于相似的人可能会有相近的兴趣兴趣演进pattern,我们会构建一个mapping g,它可以将user profile embedding \(e^P\)转化成latent time-stream space来获取initial value:\(z_{t_0} = g(e^P; \theta_g)\),mapping g是一个具有参数\(\theta_g\)的线性转换,它会当成是一个将profile embedding space转化latent time-stream space的encoder。

另一方面,\(\phi\)是一个decoder,它可以将latent time-stream feature \(z_{t_i}\)转成video embedding-spaned space。\(\phi(z_{t_i}; \theta_{\phi}\)是behavior feature的adujstment或supplementary,它可以携带额外的行为演化patterns。 对于user behavior feature的adujstment,我们有:\(\bar{e_i} = e_i + \phi(z_{t_i}; \theta_{\phi})\),其中:\(i=1, 2, \cdots, N\)。fuse operation可以被设置成像concatenation的operation,但在本工作中,add操作会被用来保证adujstment以及original feature具有相同贡献。对于target video feature,我们有:\(\bar{e}^V = e_{N+1} + \phi(z_{t_{N+1}; \theta_\phi)\)

增强行为特征(enriched behavior feature) \(\bar{e}^U = (\bar{e}_1, \bar{e}_2, \cdots, \bar{e}_N)\),video vector \(\bar{e}^V\)和profile feature \(e^P\)会接着被发送到Base CTR模型的其余部分。

使用ODE作为一个generative model,允许我们在任意时间做出预测,不管是过去或是将来,因为在timeline上是连续的。ODE的output可以通过一个黑盒的差分等式solver进行计算,它会来评估hidden unit dynamics是否需要来决定有期望的accuracy的solution。

function f的选择

latent function f需要被指定,使用不同类型的函数来满足不同需求。接着,我们会引入一些方法来利用不同类型的ODE function f来建模intrest evolution的过程。

Simple form

function f的最简单形式是,f是一个关于独立变量t的函数:

\[f(z, t) = \frac{dz}{dt} = A(t), z(t)=\int_{t_0}^t A(\lambda) d{\lambda} +C\]

…(6)

其中,A是control function,C是一个constant。该类型的问题可以通过直接计算z(t)具有一个解析解。如果这样,数值形求解ODE不存在额外开销。一个特例是具有常系数的linear differential equation \(f(z, t) = A(t) = \alpha\),它意味着在rate \(\alpha\)时有latent state discount。因此,对于所有的t会有\(z_{t_i} = \alpha (t_i -t_0) + z_{t_0}\)。这里的看法是,f的单调trajectory会模拟用户兴趣的特性:主要被最近兴趣所影响,因此会减小较早兴趣的影响,并增加用户最近行为的影响。特例相当简单,但在实验中达到很好的效果。

复杂形式

f的简单形式不能表达用户diverse的time-searies的pattern。为了解决该限制,另一个选择是:使用一个neural network参数化dynamics f的导数,它可以极大提升模型的表示能力。在本paper中,会使用一个带sogmoid activation unit的双层neural network:\(f(z) = \sigmoid(w_2 \cdot \sigmoid(w_1 \cdot z + b_1) + b_2)\)

其中:\(w_1, w_2, b_1, b_2\)是线性参数,\(\sigmoid(\cdot)\)是activate unit。在该形式下的f很难获得一个解析解 ,在\(z_{t_1}, \cdots, z_{t_N}, z_{t_{N+1}}\)下的解可以使用一个数值形ODE solver来计算。

Guide Loss

前面的函数在单次调用ODE toolbox上可以被求解,现代ODE solvers会在approx error的增长上会有保障。然而我们有以下需要注意的事项:

1) 当function形式变得复杂时,ODE的行为可能会遇到expolodes的情形,收敛到稳态或者展示混乱行为。这可以解释一些难点:比如:在DNN训练中遇到的梯度vanishing或explosion。

2) 另一方面,由于target item的行为会由用户兴趣演进所触发,该label只表示\(z_{t_{N+1}}\)的最后点击行为,而历史state \(z_t\)不会获得合适的监督(supervision)。

为了缓解这些问题,我们提出了guide loss,它会使用behavior embedding \(e_i\)来监督latent function的学习。为了这样做,受word2vec的启发,我们构建了一个小网络,它会将decoded hidden state \(\phi(z_{t_i})\)推至更接近下一行为\(e_{i+1}\),而非一个随机负采样实例\(e^{rand}\)。Guide loss可以公式化为:

\[L_{guide}(p,v,n)=- \frac{1}{N} \sum_i (v_i \cdot p_i + v_i \cdot n_i - log(\frac{v_i \cdot p_i}{v_i \cdot n_i})) \\ p_i = FC(e_{i+1}), v_i = FC(\phi(z_{t_i})), n_i = FC(e^{rand})\]

其中,FC(x)是一个将PRelu作为activation的fully connected layer。模型的整个loss如下:

\[L = L_{target} + \lambda L_{guide}\]

…(7)

其中,L是overall loss function,\(L_{target}\)由等式(4)引入,\(\lambda\)是hyper-parameter,它会对兴趣表示和CTR预测进行balance。

整体上,guide loss的引入有一些优点:

  • 1) 从兴趣学习的角度,guide loss的引入会帮助ODE的每个hidden state更丰富地表示兴趣
  • 2) 对于ODE的最优化,当ODE会建模长历史行为序列时,guide loss会减小BP的难度
  • 3) 对于embedding layer的学习,Guide loss会给出更多语义信息,这会产生一个更好的embedding matrix

training和inference

在训练阶段,我们的模型会具备重新加载BaseModel参数的能力。接着,所有weights会进行finetuned来获得一个快速收敛。我们会通过初始化f的参数以及初始值为0来达到一个safe-start,比如:ODE的trajectory是一个0常数。这样,在训练的开始,整个模型会与original CTR base model保持相同。

在inference阶段,我们可以在任意的推荐时间\(t_{N+1}\)来预测用户兴趣演进,因为我们会利用ODE solver来在下一时间\(t_{N+1}\)来集成f的函数。在工业界,DTS会更有效:当预测在\(t_{N+1}, t_{N+2}, t_{N+n}\)的多个CTR时,没有必要从头计算hidden trajectory。很容易集成从\(t_N\)到\(t_{N+n}\)的function,它们的计算很cheap。

4.实验

参考

youku在《Multi-objective Optimization for Guaranteed Delivery in Video Service Platform》提出了一种方法:

1.介绍

2.相关工作

3.内容的曝光分配模型

在本节中,首先给出内容的保量分发策略的一些概念:

3.1 前提

我们只考虑需要GD策略的抽屉或者模块(drawers),它被表示为:

\[S = \lbrace s_j, j \in Z_n \rbrace\]

其中:

  • \(Z_n\)表示从1到n的整数集合

在drawer \(s_j\)的位置集合被表示为:

\[D_{s_j}=\lbrace d_{jk}, j \in Z_n, k \in Z_{\Theta(s_j)}\rbrace\]

其中:

  • \(\Theta_{s_j}\)表示在drawer \(s_j\)的位置数目

假设需要考虑在这些drawer的内容集合被表示为:

\[Q=\lbrace q_i, i \in Z_m \rbrace\]

其中:m是内容数目

在每个位置\(d_{jk}\)的整体天级PV限制被表示为\(C(d_{jk})\)。不失一般性,后面章节,我们将PV value表示为x,将CLICK value表示为y

考虑到每个drawer和position的资源容量(resource capacity),以及每个内容的CTR趋势,我们的目标是:为每个内容发现合适的天级PV,它可以最大化整个频道的VV,同时尽可能避免”过曝光(over-exposure)”和“欠曝光(under-exposure)”。因此,GD策略的主要问题是:给定一个内容的PV value x,我们估计它的click value值y。正式的,点击预估模型是一个”mapping”函数,它可以根据历史天级PV和CLICK数据来学到相应的patterns,并能预测一天的click value。

3.2 pv-click-ctr预估模型

每个内容的CTR趋势(trend)涉及到许多因素,很难对这些因素枚举并基于它的历史数据进行模型构建。因而,我们从其它视角对该问题进行研究。

总的来说,点击来自于曝光。在大多数case下,越多的曝光会带来越多点击数。然而,每个内容的目标消费者的总数目是有限的。当曝光量过大时,对同一消费者进行重复曝光在统计上不能带来更多的点击。这种“饱和”现象可以在我们的产品中通过历史数据观察到,这与经济学系统中的人口模型相似。受[13]的启发,我们引入一个参数化模型(parametric model)来捕获以上的观点。

特别的,假设:

  • y(x)表示点击值,它与在一天内某一内容的一个PV value x一一对应
  • \(\Delta x\)是PV增量
  • \(\Delta y\)是对应于\(\Delta x\)的点击增量
  • r是相对增长率系数。不同内容的相对增长率是不同的,因为它主要依赖于内容质量

如果PV值x很小,我们可以将CLICK增长率看成是与PV成比例关系,因为越多的曝光通常会带来越多的点击:

\[\frac{y(x+\Delta x) - y(x)}{\Delta x} \approx r * y(x)\]

…(1)

然而,当PV value x很大时,点击会具有“饱和”效应,增长率会递减。正式的,它可以写成:

\[\frac{y(x+\Delta x) - y(x)}{\Delta x} < 0\]

…(2)

与paper[13]相类比,我们使用一个关于y(x)的线性递减函数,来描述“饱和”效应,例如:

\[\frac{y(x+\Delta x) - y(x)}{\Delta x} = r(1 - \frac{y(x)}{y_m}) y(x)\]

…(3)

其中,\(y_m\)被称为中心点击值(pivot CLICK value)。当PV超过对应于\(y_m\)的PV量时,相对增长率会为负,例如:如果\(y(x) > y_m, 1-\frac{y(x)}{y_m} < 0\)。其中,r和pivot CLICK \(y_m\)是核心content-based参数,表示内容的属性。

假设:\(\Delta x \rightarrow 0\),那么等式(3)将是一个在CLICK和PV值间的ODE常微分方程模型:

\[\frac{dy}{dx} = r ( 1 - \frac{y}{y_m}) y\]

…(4)

等式(4)的解为:

\[y = \frac{y_m y_0}{y_0 - (y_0 - y_m) e^{-r(x - x_0)}}\]

…(5)

其中:

  • \(x_0\)和\(y_0\)表示初始PV和初始CLICK。

如果\(y_0 < y_m\),CLICK value会增长,随着\(x \rightarrow \infty\)时会渐近逼近\(y_m\);如果\(y_0 > y_m\),CLICK value会递减;随着\(x \rightarrow \infty\)会远离\(y_m\),事实上\(y = y_m\)是等式(4)的等价。因而,\(y = y_m\)的均衡点(equilibrium)。因而,等式(4)的正均衡点\(y=y_m\)是全局稳定的,也就是说,对等式(4)的y(x)求解\(\lim_{n \rightarrow \infty} y(x) = y(m)\),其中任意初始值\(x_0\)。

为了描述每个视频内容的CTR趋势,在等式(5)中的参数r和\(y_m\)需要通过历史PV和CLICK数据进行填充。我们将所有内容相关的因子归属为这些参数,期望它们来表示内容自己的CTR趋势。我们使用least square fitting方法来估计这些参数。

3.3 曝光分配公式

基于3.2节提出的pv-click-ctr预估模型,该子部分目标是,开发一个最优化程序模型来解决PV分配问题。假设:

  • \(x_{ijk}\)表示内容\(q_i\)从位置\(d_{jk}\)获得的PV value
  • \(f(x_{ijk})\)是对应于\(x_{ijk}\)对应的CLICK value,它可以使用等式(5)进行计算

我们的目标是:最大化总视频观看数(video views: VV),并通过最优化\(x_{ijk}\)来最小化CTR variance。通过分析最优化目标和约束,分配问题可以被定义如下:

\[max \sum\limits_{i=1}^m \sum\limits_{j=1}^n r_{ij} f(x_{ijk}), k \in Z_{\Theta(s_j)} \\ min \frac{\sum\limits_{i=1}^m (p_i - P)^2}{m - 1} \\ p_i = \frac{\sum_{j=1}^n f(x_{ijk})}{\sum_{j=1}^n x_{ijk}}, \forall i \in \lbrace 1, 2, \cdots, m \rbrace, \forall k \in Z_{\Theta(s_j)} \\ P = \frac{\sum\limits_{i=1}^m \sum\limits_{j=1}^n f(x_{ijk})}{\sum\limits_{i=1}^m \sum_{j=1}^n x_{ijk}}, \forall k \in Z_{\Theta(s_j)}\]

….(6)(7)(8)(9)

约束条件为:

s.t.

\[\sum\limits_{i=1}^m x_{ijk} < C(s_j), \forall j \in \lbrace 1, 2, \cdots, n \rbrace, \forall k \in Z_{\Theta(s_j)}\]

…(10)

\[\sum\limits_{i=1}^m \sum_{j=1}^n x_{ijk} < R, \forall k \in Z_{\Theta(s_j)}\]

…(11)

\[x_{ijk} < max \lbrace C(d_{jl}), l \in Z_{\Theta(s_j)} \rbrace, \\ \forall i \in \lbrace 1,2, \cdots, m\rbrace, \forall j \in \lbrace 1,2, \cdots, n\rbrace, \forall k \in Z_{\Theta(s_j)}\]

…(12)

\[|C_{jk}| \leq k, C_{jk} = \lbrace x_{ijk} | x_{ijk} \geq C(d_{jk}), 1 \leq i \leq m \rbrace, \\ \forall j \in \lbrace 1, 2, \cdots, n \rbrace, \forall k \in Z_{\Theta(s_j)}\]

…(13)

其中:

  • \(r_{ij}\):是对于内容\(q_i\)在drawer \(s_j\)中CLICK和VV间的正相关系数
  • \(C(s_j)\):是drawer \(s_j\)的总PV资源数
  • R:是drawer set S的总可供资源数

等式(6)的最优化目标是在所有drawers上最大化总VVs。其它最优化目标是,在最小化等式(7)-(9)描述的的不同内容间的CTR variance。

  • 等式(10)描述的约束意味着:内容集合Q在drawer \(s_j\)中的资源分配不能超过它的资源容量(capacity)
  • 等式(11)表示drawer set S的资源约束
  • 等式(12)是位置资源约束,它表示资源分配给在任意drawer中的一个内容,不能超过它的最大位置资源容量
  • 等式(13)可以确保它们必须是一个drawer的一且只有一个位置分配给一个内容,也就是说:我们不能在相同时间展示相同内容给用户。

4.GA-based内容分配算法

为了获得在第3节中建模的分配问题的最优或次优解,提出了一个遗传算法(Genetic Algorithm)GA分配算法,它是一个迭代算法,其中会嵌入pv-click-ctr预测模型。

注意,等式(6)-(13)中表示的PV分配问题,对应于一个多目标约束优化问题(MCOP: Multi-objective Constrained Optimization Problem),它的最优解是很难找出的。通常,一个MCOP可以通过加权法( weighting)被转化成一个单目标最优化问题,接着PV分配问题定义如下:

\[max \ g(X | \lambda) = \sum\limits_{i=1}^m \sum\limits_{j=1}^n r_{ij} f(x_{ij}) + \lambda \frac{1} {\frac{\sum\limits_{i=1}^m (p_i - P)^2}{m-1}} \\ p_i = \frac{\sum\limits_{j=1}^n f(x_{ij})}{\sum\limits_{j=1}^n x_{ij}}, \forall i \in \lbrace 1,2, \cdots, m \rbrace \\ P = \frac{\sum\limits_{i=1}^m \sum\limits_{j=1}^n f(x_{ij})}{\sum\limits_{i=1}^m \sum\limits_{j=1}^n x_{ij}}\]

…(14)(15)(16)

\[s.t. X \in \Omega\]

…(17)

其中:

  • \(\lambda\)表示weight参数
  • \(\Omega\)是等式(10)-(13)描述的决策(变量)空间
  • \(g(X \mid \lambda)\)是目标函数

应该注意的是,通过等式(14)-(17)建模的分配问题是一个组合优化问题,并且它是非线性和非平滑的。组合优化问题是,它的可行解集合是离散的。该问题是NP-hard完全问题,它在多项式时间内全局最优的求解是相当难的。像branch和bound的搜索算法可以退化成完全枚举,并且CPU时间需要求解,可能会在最坏情况下指数级增长。为了实际求解这样的问题,必须合理的满足寻找好的近似最优解。作为搜索一个近似最优解的经典算法,GA提供了一个可选的方法。不同于通用的GA,我们提出的GA框架包含了以下主要两个部分:

  • coding scheme考虑上ODE约束
  • 本地搜索操作(带elitist策略的选择、交叉和突变)

4.1 Coding Scheme和ODE-based Fitness

根据GA的常用框架,对于分配问题的解是一个染色体(chromosome)或个体(individual)。特别的,在我们问题中的chromosome是一个矩阵,其中,elements是从drawers的相应位置分配的PV value。chromosome会以两步生成:

  • 1) 对于任意内容\(q_i\),会生成一个关于PV values的排列\(x_i = [x_{i,1}, x_{i,2}, \cdots, x_{i,n}]\),其中\(x_i\)的长度为n
  • 2) 对于不同内容合并所有的排序,是为了形成关于chromosome的最终形式\(X= [x_1, x_2, \cdots, x_m]\)

在GA中,每个个体(individual)的fitness函数的值,例如(fitness),是与生存者(survival)的概率是高度相关的。高fitness的个体相对于整体人口来说具有一个被选中进行交配(mating)的高概率,而低fitness个体具有一个相应的被选中低概率。特别的,在该问题中的个体X的fitness函数等于在等式(14)中定义的目标函数。需要注意的是,等式(14)的主要部分是\(f(x_{ij})\)。如上所述,\(f(x_{ij})\)是一个对应于PV value \(x_{ij}\)的CLICK value,它可以通过第3.2节提到的pv-click-ctr模型来获得。假设个体X的fitness函数是F(X),假设:\(U=\lbrace u_1, u_2, \cdots, u_l \rbrace\),以及\(V=\lbrace v_1, v_2, \cdots, v_l\rbrace\)分别表示历史天级PV数据和CLICK数据的集合。由于在等式(4)中定义的两个参数通过使用U和V的数据进行fit,假设\(l \geq 4\)。对于一个PV value \(x_{i,j} \in X\),寻找一个element \(u_k \in U\)如下:

\[u_k = argmin || u_{\bar{k}} - x_{i,j} ||, u_{\bar{k}} \in U\]

…(18)

根据等式(3),我们可以获得\(x_{i,j}\)的一个相应CLICK value:

\[f(x_{i,j}) = v_k + r(1 - \frac{v_k}{v_{max}}) v_k(x_{i,j} - u_k)\]

…(19)

其中,r和\(v_{max}\)是通过将来自U和V的数据作为input来fit的参数。接着根据等式(14),fitness function F(X)可以获得:

\[F(X) = g(X|\lambda)\]

…(20)

4.2 Elitist策略的局部搜索操作

局部搜索操作(local selection operation)涉及到一系列操作,比如:选择(selection)、突变(mutation)、交叉(crossover)。主要目标是,继承高质量基因到下一代中,并进一步提升计算效率以及全局收全敛的概率。

在选择阶段,我们会使用elitism策略来保留“好”基因到下一代中。具体的,假设\(X_u^k\)是在第k代的个体,下一代对应\(X_u^k\)如下:

\[X_i^k =\]

…(21)

这意味着,我们只要保留具有高fitness value的个体到下一代即可。

交叉操作会随机将高质量个体的基因片段进行随机交叉。交叉概率的范围推荐0.4-0.99. 我们使用Order Crossover(OX) strategy。

突变(mutation)操作在GA中具有探索效应,这被期望可以达到大概率的全局最优。通过突变操作,一个新的染色体会通过在交叉之后在染色体中变更某些基因的编码来生成。为了确认人口演进的稳定性,突变概率通常会设得更小的值。本paper使用一种自适应突变概率,如下所示:

\[p_m =\]

…(22)

其中\(p_{max}\)和\(p_{min}\)表示最大和最小突变概率,其中在本paper分别采用0.05和0.01. F是fitness function,\(F_{max}\)和\(F_{avg}\)是对于当前人口的fitness function的最大值和平均值。

5.实验

参考

1.介绍

最近几年,DNNs已经在推荐任务预测上达到了非常好的效果。然而,大多数这些工作集中在模型本身。只有有限的工作把注意力放到输入的特征方面,而它可以决定模型表现的上界(upper-bound)。在本工作中,我们主要关注于特征方面,特别是在电商推荐中的features。

为了确保offline training与online serving的一致性,我们通常在真实应用的两个enviorments中我们使用相同的features。然而,有一些有区分性的特征(discriminative features)会被忽略(它们只在训练时提供)。以电商环境中的CVR预测(conversion rate)为例,这里我们的目标是:估计当用户点击了该item后购买该item概率。在点击详情页(clicked detail page)上描述用户行为的features(例如:在整个页面上的dwell time)相当有用。然而,这些features不能被用于推荐中的online CVR预测,因为在任意点击发生之前预测过程已经完成。尽管这样的post-event features确实会在offline training记录。为了与使用privildeged information的学习相一致,这里我们将对于预测任务具有区分性(discriminative)、但只在训练时提供的features,称为priviledged features

使用priviledged features的一种简单方法是:multi-task learning,例如:使用一个额外的任务来预测每个feature。然而,在multi-task learning中,每个任务不必满足无害保障原则(no-harm guarantee)(例如:priviledged features可能会伤害原始模型的学习)。更重要的是,由于估计priviledged features比起原始问题[20]更具挑战性,很可能会与no-harm guarantee原则相冲突。从实际角度看,当一次使用数十个priviledged features,对于调整所有任务来说是个大挑战。

受LUPI(learning using priviledged information)【24】的启发,这里我们提出priviledged features distillation(PFD)来使用这些features。我们会训练两个模型:一个student和一个teacher模型。

  • student模型:与original模型相同,它会处理offline training和online serving的features。
  • teacher模型:会处理所有features,它包括:priviledged features。

知识会从teacher中distill出来(例如:在本工作中的soft labels),接着被用于监督student的训练,而original hard labels(例如:{0, 1})它会额外用来提升它的效果。在online serving期间,只有student部分会被抽出,它不依赖priviledged features作为输入,并能保证训练的一致性。对比起MTL,PFD主要有两个优点:

  • 一方面,对于预测任务,priviledged features会以一个更合适的方式来进行组合。通常,添加更多的priviledged features会产生更精准的预测
  • 另一方面,PFD只会引入一个额外的distillation loss,不管priviledged features的数目是多少,很更容易进行平衡

PFD不同于常用的模型萃取(model distillation:MD)[3,13]。

  • 在MD中,teacher和student会处理相同的inputs,teacher会使用比student更强的模型。例如,teachers可以使用更深的network来指导更浅的students。
  • 而在PFD中,teacher和student会使用相同的模型,但会在inputs上不同。PFD与原始的LUPI【24】也不同,在PFD中的teacher network会额外处理regular features。

图1给出了区别。

在本工作中,我们使用PFD到taobao推荐中。我们在两个基础预测任务上,通过使用相应的priviledged features进行实验。主要贡献有4部分:

  • 在taobao推荐中定义了priviledged features,并提出了PFD来使用它们。对比起MTL来独立预测每个priviledged feature,PFD会统一所有的模型,并提供一个一站式(one-stop)的解。
  • 不同于传统的LUPI,teacher PFD会额外使用regular features,它会更好地指导student。PFD与MD互补。通过对两者进行组合,例如:PFD+MD,可以达到更进一步的提升
  • 我们会通过共享公共输入组件(sharing common input components)来同步训练teacher和student。对比起传统的异步使用独立组件进行训练,这样的训练方式可以达到更好的效果,而时间开销会进一步减小。因此,该技术在online learning中是可用的,其中real-time计算需要。
  • 我们会在taobao推荐的两个基础预测任务上进行实验,例如:粗排中的CTR预测,以及粗排中的CVR预测。通过对interacted features(交叉特征)进行distill是不允许的,因为在粗排中的效率问题,以及在精排CVR中的post-event features,我们可以对比baseline达到极大的提升。在on-line A/B tests中,在CTR任务上点击指标可以提升+5%。在CVR任务中,conversion指标可以提升+2.3%。

2.相关distillation技术

在给出我们的PFD的详细描述前,首先介绍下distillation技术。总体上,该技术的目标是,帮助non-convex的student models来更好地训练。对于model distillation,我们通常会按如下方式写出objective function:

\[\underset{W_s}{min} (1-\lambda) * L_s(y, f_s(X; W_s)) + \lambda * L_d (f_t(X; W_t), f_s(X; W_s))\]

…(1)

其中:

  • \(f_t\)和\(f_s\)分别是teacher模型和student模型
  • \(L_s\)表示student pure loss,它具有已知的hard label y
  • \(L_d\)表示使用soft labels的loss,它由teacher产生
  • \(\lambda \in [0, 1]\)是超参数,用于对两个loss进行balance

对比起单独最小化\(L_s\)的original function,我们会期待在等式(1)中的additional loss \(L_d\)会帮助更好地训练\(W_s\),通过从teacher中对knowledge进行distilling得到。在[29]中,Pereyra et.将distillation loss看成是在student model上进行regularization。当单独以最小化\(L_s\)的方式训练\(f_s\)时,它被证明是获得overconfident preditions(过拟合的预测),会对training set过拟合。通过添加distillation loss,\(f_s\)也会逼近来自\(f_t\)的soft predictions。通过对outputs进行softening,\(f_s\)更可能会达到更好的泛化效果。

通常,teacher model会比student model更强大。teachers可以是一些models的ensembles,或者具有比student更多neurons、更多layers、或更广数值精度的DNNs。但也有些例外,比如,在[1]中,两个模型都会使用相同的结构,它们会相互学习,不同之处在于initialization以及处理训练数据的orders。

如等式(1)所示,teacher的参数\(W_t\)会在最小化期间fix住。我们可以将distillation技术划分成两个steps:首先使用已知的labels y训练teacher,接着通过最小化等式(1)来训练student。在一些应用中,模型会花费相当长的时间才收敛,等待teacher像等式(1)一样准备好是不实际的。作为替代,一些工作会尝试同步训练teacher和student【1,38,39】。除了像等式(1)那样从final output进行distilling之外,也可以从middle layer上进行disitll,例如:[30]尝试从intermediate feature maps进行distill,可以帮助训练一个deeper和thinner network。

除了从更复杂模型中对knowledge进行distill外,[24]提出从previledged information \(X^*\)上进行distill,它被认为是使用priviledged information(LUPI)进行学习。loss function接着变为:

\[\underset{W_s}{min} (1-\lambda) * L_s (y, f(X; W_s)) + \lambda * L_d (f(X^*; W_t); f(X; W_s))\]

…(2)

在[37]中,wang et使用LUPI来image tag推荐。除了teacher和student网络外,他们会额外学习一个discriminator,它会确认student更快地学习真实数据分布。Chen 使用LUPI来review-based 推荐。他们也会使用advrsarial training来选择informative reviews。另外,为了达到更好的效果,许多工作会在相对小的数据集上进行验证。但在工业级数据集上,仍有许多未知,这些技术需要在min-max game中达到均衡。

3.taobao推荐中的Priviledged features

图片名称

图2 taobao推荐总览。我们采用一个cascaded learning框架来select/rank items。在粗排中, interacted features(通常也是discriminattive)会被禁止,因为他们会在serving时极大增加时耗。一些有表征性的features会在下面部分演示

为了更好地理解priviledged features,我们首先如图2所示给出taobao推荐的一个总览。在工作推荐中通常这么做,我们采用cascaded 学习框架。在items呈现给用户前,有3个stages来select/rank items:candidate generation、coarse-grained ranking、fine-grained ranking。为了在效率和accuracy间做出一个好的trade-off,越往前的cascaded stage,会采用复杂和高效的模型,对items进行scoring会具有更高的时延。在candidate generation stage,我们会选择\(10^5\)个用户可能会点击或购买的items。总之,candidate genreation会从多个sources进行混合而来,比如:协同过滤、DNN模型等。在candidate generation之后,我们会采用两个stage进行ranking,其中PFD会在这时使用

在coarse-grained ranking stage中,我们主要会通过candidate generation stage来估计所有items的CTRs,它们接着被用来选择top-k个最高的ranked items进入到下一stage。预测模型的input主要包含了三个部分。

  • 第一部分:用户行为,它会记录用户点击/购买items的历史。由于用户行为是有序的,RNNs或self-attention会通常被用来建模用户的long short-term interests。
  • 第二部分:user features,例如:user id、age、gender等。
  • 第三部分:item features,例如:item id、category、brand等。

通过该工作,所有features都会被转换成categorical type,我们可以为每个feature学习一个embedding。

在粗排阶段,prediction model的复杂度会被严格限制,以便让上万候选在ms内完成。这里,我们使用inner product模型来对item scores进行measure:

\[f(X^u, X^i; W^u, W^i) \triangleq <\phi_{W^u}(X^u), \phi_{W^i}(X^i)>\]

…(3)

其中:上标u和i分别表示user和item。

  • \(X^u\):表示user behavior和user features的一个组合
  • \(\phi_W(\cdot)\)表示使用学到参数的非线性映射
  • \(W_{\cdot}<\cdot, \cdot>\)是内积操作

由于user侧和item侧在等式(3)中是独立的。在serving期,我们会事先离线计算关于所有items的mappings \(\phi_{W^i}(\cdot)\)。当一个请求到来时,我们只需要执行一个forward pass来获得user mapping \(\phi_{W^u}(X^u)\),并计算关于所有candidates的inner product,它相当高效。细节如图4所示。

如图2所示,粗排不会使用任何交叉特征,例如:用户在item category上在过去24小时内的点击等。通过实验验证,添加这样的features可能大大提高预测效果。然而,这在serving时会极大地增加时延,因为交叉特征依赖user和指定的item。换句话说,features会随着items或users的不同而不同。如果将它们放到等式(3)中的item或user侧。mappings \(\phi_w(\cdot)\)的inference需要执行和候选数一样多的次数,例如:\(10^5\)次。总之,non-linear mapping \(\phi_W(\cdot)\)的计算开销要比简单的inner product大许多阶。在serving期间使用交叉特征是不实际的。这里,我们将这些交叉特征看成是:在粗排CTR预测的priviledged features

在精排阶段,除了在粗排中也会做的CTR预估外,我们也为所有候选预估CVR,例如:如果用户点击某个item后会购买该item的概率。在电商推荐中,主要目标是最大化GMV(商品交易总量),它可以被解耦成CTR x CVR x Price。一旦为所有items估计CTR和CVR,我们可以通过expected GMVs来对它们进行排序来最大化。在CVR的定义中,很明显,用户在点击item详情页上的行为(例如:停留时长、是否观看评论、是否与卖者进行交流等),对于预测来说相当有用。然而,在任何future click发生前,CVR必须要对ranking进行估计。描述在详情页上用户行为的features在inference期间并没有提供。这里,我们可以将这些features表示成priviledged features来进行CVR预测。为了更好地理解它们,我们给出图3进行演示。

图片名称

图3 描述了clicked item的详情页上的用户行为。包括没有展示的dwell time,这些features对于CVR预测来说是相当有信息量的(informative)。然而,在serving时,如左子图所示,在任意item被点击之前,我们不必使用CVR来对所有candidate items进行rank。对于CVR预测,我们将这些features表示成priviledged features

4.Priviledged Feature Distillation

如等式(2)所示,在原始的LUPI,teacher依赖于priviledged information \(X^*\)。尽管信息量大,在本工作中的priviledged featues只能部分描述用户的偏好。使用这些features的表现要比使用常规特征(regular features)要差。另外,基于priviledged features的预测可能有时会被误导(misleading)。例如,对于顾客来说,通常会在昂贵item上花费更多时间来最终决定,而这些items的转化率相当低。当进行CVR估计时,LUPI的teacher会依赖于priviledged features(例如:停留时间)做出预测,但不考虑regular features(例如:item price),这会导致在昂贵items上做出false positive predictions。为了缓和它,我们会额外将常规features feed给teacher model。等式(2)的原始function可以修改如下:

\[\underset{min}{W_s} (1-\lambda) * L_s (y, f(X; W_s)) + \lambda * L_d( f(X, X^*; W_t), f(X; W_s))\]

…(4)

通常,添加更多信息(例如:更多features),会得到更精准的predictions。teacher \(f(X, X^*; W_t)\)这里期望会比sutdent \(f(X; W_s)\)、或者LUPI \(f(X^*; W_t)\)的teacher更强。在上述场景上,通过考虑上priviledged features和regular features,可以使用停留时长(dwell time)来区分在不同昂贵items上的偏好程度。teacher会有更多的知识来指导student,而非误导它。通过以下实验进行验证,添加regular features到teacher中是non-trivial的,它可以极大提升LUPI的效果。从那以后,我们将该技术表示成PFD来区别LUPI。

如等式(4)所示,teacher \(f(X, X^*; W_t)\)会优先训练。然而,在我们的应用中,单独训练teacher model会花费一个较长时间。使用像等式(4)这样的distillation是相当不实际的。更可行的方式是,像[1,38,39]的方式同步地训练teacher和student。objective function接着被修改如下:

\[\underset{W_s, W_t}{min} (1-\lambda) * L_s(y, f(X;W_s)) + \lambda * L_d(f(X,X^*;W_t), f(X;W_s)) + L_t(y, f(X, X^*; W_t))\]

…(5)

尽管会节省时间,同步训练可能不稳定(un-stable)。在early stage时,teacher模型没有被well-trained,distillation loss \(L_d\)可能会使student分心(distract),并减慢训练。这里我们通过一个warm up scheme来缓和它。在early stage时我们将等式(5)的\(\lambda\)设置为0,从那以后将它固定到一个pre-defined value,其中swapping step可以是个超参数。在我们的大规模数据集上,我们发现,这种简单的scheme可以良好地运转。不同于相互学习(mutual learning),我们只允许student来从teacher那进行学习。否则,teacher会与student相互适应,这会降低效果。当根据teacher参数\(W_t\)分别计算gradient时,我们会触发distillation loss \(L_d\)。算法1使用SGD更新如下。

根据该工作,所有模型都会在parameter server系统上进行训练,其中,所有参数都会存储在servers上,大多数计算会在workers上执行。训练速度主要决取于在workers上的计算负载以及在workers和servers间的通信量。如等式(5)所示,我们会一起训练teacher和student。参数数目和计算会加倍。使用PFD进行训练可能会比在student上单独训练更慢,这在工业界是不实际的。特别是对于在线学习,会要求实时计算,采用distillation会增加预算。这里我们会通过共享在teacher和student的所有公共输入部分来缓和该问题。由于所有features的embeddings会占据在servers上的大多数存储,通过共享通信量可以减小一半。该计算可以通过共享用户点击/购买行为的处理部分来减小,它的开销较大。正如以下实验所验证的,我们可以通过sharing来达到更好的表现。另外,对比起单独训练student,我们只会增加一些额外的时间,对于online learning来说这会使得PFD更适应些(adoptable)。

扩展:PFD+MD

如图1所示,PFD会从priviledged features中distill知识。作为对比,MD会从更复杂的teacher model中distill知识。两个distillation技术是互补的。一个天然扩展是,将它们进行组合来构成一个更复杂的accurate teacher来指导student。

图片名称

图1 MD与PFD。在MD中,knowledge会从更复杂的模型中distill出来。在PFD中,knowledge会同时从previledged和regular features中进行distill。PFD也会与使用priviledged information(LUPI)的original learning有所不同,其中teacher只处理priviledged features

在粗排的CTR prediction中,如等式(3)所示,我们使用inner product模型来在serving上增加效率。事实上,inner product模型会被认为是泛化的MF(gnerelized matrix factorization)。尽管我们正使用非线性映射\(\Phi_W(\cdot)\)来转移user和item inputs,该模型能力天然受限于内积操作的bi-linear结构。DNNs,它可以逼近任意函数,被认为是对于在teacher中的inner product模型的一个替代。事实上,如【22】中的定义1所示,乘积操作可以通过一个two-layers的NN(在hidden layer上只有4个neurons)来逼近任意小。因此,使用DNN的表现被认为是inner-product模型的下界(lower-bounded)。

图片名称

图4

在PFD+MD中,我们也采用DNN模型作为teacher network。事实上,这里的teacher model与我们在精排CTR预测使用的模型相同。本任务中的PFD+MD可以被认为是从精排中distill知识,来提升粗排。为了更好地演示,我们在图4中给出了整个框架。在serving期间,我们会只抽取student部分,它依赖于priviledged features。由于所有items的mappings \(\phi_{W^i} (X^i)\)是与users相互独立的,我们会事先对它们进行离线计算。当一个请求过来时,user mapping \(\phi_{W^u}(X^u)\)会首先计算。这之后,我们会使用所有items的mappings(它们从candidate generation阶段生成)来计算inner-product。top-k得分最高的items接着被选中并被feed给精排。基本上,我们只要执行一个forward pass来获得user mapping,并在user和所有candidates间执行高效地inner product操作,它在计算方面相当友好。

图片名称

图5

5.实验

在taobao推荐上做了实验,目标是回答以下的研究问题:

  • RQ1: PFD在粗排的CTR任务上的表现,以及在精排CVR上的表现?
  • RQ2: 对于独立的PFD,我们可以通过将PFD与MD进行组合来达到额外的提升?
  • RQ3: PFD对于等式(5)中的超参数\(\lambda\)敏感吗?
  • RQ4: 通过共享公共输入部件(),同时训练teacher和student的效果是什么?

5.1 实验setting

5.2 粗排CTR

5.3 精排CVR

5.4 RQ3-4

6.结论

参考