除了提出助力 Kimi k1.5 大获成功的 SPPO 技术外,Wu Yue ...
SPPO是一种自博弈算法,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:值得一提的是,点开论文链接,你会发现原来YueWu和ZhiqingSun同为这篇文章的第一作者。紧接着,他开始对SPPO技术进行解析:通过迭代求解 ...