Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations

URL

多任务模型共享网络结构，在一些弱关联或者负相关的任务上，可能出现 跷跷板效应（Seesaw Phenomenon），即一个任务的效果和另外一个任务的效果无法同时提升
针对跷跷板效应问题，本文提出一种 CGC（Customized Gate Control）结构，任务之间部分共享底层网络
提出一种 CGC 的升级版本 - PLE（Progressive Layered Extraction）
单层网络结构 CGC 与多层网络结构 PLE 都优于 MMOE

CGC 结构部分共享表征，部分独用表征，共享表征和独占表征的权重分配是通过门控制
$y^k(x) = t^k(g^k(x))$ ，其中 $t^k$ 表示第 k 个任务的 tower
$g^k(x) = w^k(x)S^k(x)$ ，其中 $w^k(x)$ 表示表征选择器 $w^k(x) \in\mathbb{R}^{m_k+m_s}$ 、 $m_k$ 、 $m_s$ 分别表示独占和共享表征的数量
$w^k(x) = Softmax(w^k_gx),w^k_g\in\mathbb{R}^{(m_k+m_s)\times d}$ ，d 表示表征向量的长度
$S^k(x) = [E^T_{(k,1)}, E^T_{(k,2)}, ... ,E^T_{(k,m_k)},E^T_{(s,1)}, E^T_{(s,2)}, ... ,E^T_{(s,m_s)}]$ ，E 表示表征， $S^k(x)\in\mathbb{R}^{d\times(m_k+m_s)}$ 表示表征集合