前言

当前，大部分推荐算法都是基于用户-商品的交互信息来预测两者之间将会产生的评分值或者是可能性。最近几年，深度学习在推荐算法中研究越来越多，但是大部分算法是 point-wise 的，还有不少 pair-wise 的，没有 list-wise 的。基于这个情况下，我们提出了一个基于 list-wise 排序的深度学习推荐算法，简称 DeepRank，即基于深度学习的排序推荐模型。

DeepRank

为了解决 ListRank-MF 算法存在的问题，我们提出了 DeepRank。采用深度学习模型来建模，来预测未来前 k 个商品的排序情况。现给定一个评分矩阵 $R$，其中有 $N$ 个用户和 $M$ 个商品，我们重新定义可能性矩阵：

$y_{ui}=\left\{\begin{matrix}
1, \quad 如果\ r_{ui}>0\\
0,\quad\quad 其他 \quad \
\end{matrix}\right.$

框架

图一：基于列表排序的 DeepRank 框架

如图一所示，DeepRank 总共四层：输入层、嵌入层、隐含层和预测层。输入用户 $u$ 和他的 $K$ 个商品，输出 $\hat{y}_{ui}$，最后用 $softmax$ 函数来预测这些商品的概率：

$\hat{y}_{ui}=softmax(x_{ui})$

其中 $x_{ui}$ 是隐含层的输出，即：

$\hat{y}_{ui}=\frac{e^{x_{ui}}}{\sum_{k=1}^K e^{x_{uk}}}$

因为我们是对前 $k$ 商品进行预测，计算它们的概率分布：

$P_{l_{u}}\left( S(i_1,i_2,\cdots,i_K) \right)=\prod_{j \in l_u^+}\hat{y}_{uj}\prod_{k \in l_u^-}(1-\hat{y}_{uk})$

其中 $S(i_1,i_2,\cdots,i_K)$ 表示列表 $l_u$ 中商品， $l_u^+$ 和 $l_u^-$ 分别表示其中的正样本和负样本。

然后，采用交叉熵来计算损失函数：

$f(y,\hat{y})=-\sum_{u=1}^N \left( \sum_{i \in l_u^+} log\hat{y}_{ui}
+ \sum_{j \in l_u^-}log(1-\hat{y}_{uj})
\right)
\tag{3}$

其中 $y_{ui}$ 和 $\hat{y}_{ui}$ 分别表示预测值和真实值。

其中的正则项如下：
$\Omega(\Theta)=\sum_{l=1}^L \| \mathbf{w}_l \|_F^2 + \sum_{u=1}^N \| \mathbf{p}_u \|_F^2 + \sum_{i=1}^M \| \mathbf{q}_i \|_F^2$

Pair-wise DeepRank

这其实是 list-wise 的一个简化版本。列表排序其实是很费时的，时间成本太大。为了提高效率，将原模型进行一定程度的简化，就是 pair-wise 模型。示意图如下所示：

图二：配对排序的 DeepRank 框架

它的损失函数：

$f(y,\hat{y})=-\sum_{u=1}^N \left( \sum_{i \in I_u^+} log\hat{y}_{ui}
+ \sum_{j \in I_u^-}log(1-\hat{y}_{uj})
\right)
\tag{4}$

与其他经典算法的关系

与 ListRank-MF 的关系

在公式 (1) 中， ListRank-MF 模型的 $g(x)=e^x$ ，所以 $P_{lu}(r{ui})$ 可以看成是 softmax 函数。为了与我们的模型一致，我们定义 $y_{ui}'=P_{l_{u}}(r_{ui})$，且 $\hat{y}_{ui}'=P_{l_{u}}\left( f \left(p_u^Tq_i \right) \right)$，那么公式 (2) 重写成:

$\mathcal L=-\sum_{u=1}^N\sum_{i\in I_u^+} y_{ui}'log\hat{y}_{ui}'+ \lambda \Omega(\Theta)
\tag{5}$

根据公式 (5)，我们发现不同之处：ListRank-MF 只对正样本进行建模。而我们采用BPR中的模型，同时考虑了正、负样本。如果，我们只考虑正样本，那么 ListRank-MF 就可以看是没有隐含层和 sigmoid 函数的 top-one list-wise DeepRank 模型。

相比较 ListRank-MF，该模型有三个有时候：

1) DeepRank 对 top-n 进行建模, 而非 ListRank-MF 采用的 top-one, 建模信息更充分，覆盖面更广；

2) DeepRank 用神经网络来学习非线性特征，表达能力更强；

3) DeepRank 因为独特的结构，可以设置用户和商品不同的特征向量维度，而 ListRank-MF 等模型因为要进行內积计算，它的用户和商品特征数目是一样的。我们这样更灵活，鲁棒性更强。

与 BPR 的关系

BPR 是最经典的配对算法。它的核心思想是用户认为已经购买的商品肯定比那些尚未购买的商品好。它的损失函数定义:

$\mathcal L=\sum_{u=1}^N\sum_{i\in I_u^+ ,j \in I_u^-}- log\hat{x}_{uij}+ \lambda \Omega(\Theta)
\tag{6}$ $\hat{x}_{uij} =p_u^Tq_i - p_u^Tq_j$

其中 $\sigma(x)=1/(1+exp(-x))$ 是 sigmoid 函数。

在公式 6 中，我们定义 $\hat{y}_{uij}=\sigma(\hat{x}_{uij})=1/(1+exp(-\hat{x}_{uij}))$ 后：

$\mathcal L=\sum_{u=1}^N\sum_{i\in I_u^+ ,j \in I_u^-}- log\hat{y}_{uij}+ \lambda \Omega(\Theta)
=-\sum_{u=1}^N \left( \sum_{i \in I_u^+} log\hat{y}_{ui}
+ \sum_{j \in I_u^-}log(1-\hat{y}_{uj})
\right)+ \lambda \Omega(\Theta)
\tag{7}$

然后我们发现公式 (7) 和公式 (4) 是一样的。

在 DeepRank 中， $\hat{x}_{uij}=f_{MLP}(\mathbf{p}_u,\mathbf{q}_i)$，且

$\hat{y}_{uij}=softmax(\hat{x}_{uij})=\frac{e^{x_{ui}}}{e^{x_{ui}}+e^{x_{uj}}}=\frac{1}{1+e^{-(x_{ui}-x_{uj})}}=\frac{1}{1+e^{-x_{uij}}}
$

BPR中， $p_u$ 和 $q_i$ 之间的交互函数是內积相乘的。现在假设我们的模型没有隐含层，我们可以得到 $\hat{x}_{uij}=p_u^Tq_i$, 且 $\hat{y}_{uij}$ 是 sigmoid 函数，和 BPR 中定义的一样。因此，我们可以将 BPR 看成是 pair-wise DeepRank 的简化模型。而 pair-wise DeepRank 又是 DeepRank 的简化模型。