Ground Zero - 搜索 News

选自GitHub作者：Andriy Burkov机器之心编译GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 ...

腾讯网21 天

细致扒一下DeepSeek-R1论文到底讲了些什么

作者：answer论文原文链接: https://arxiv.org/pdf/2501.12948作者原文链接：https://zhuanlan.zhihu.com/p/205302041461、Approach先前的大型语言模型（LLMs）相关的很多工作里都依赖大量的人工标注的数据去提升模型性能。但在Deep Seek R1这篇论文中指出：模型的推理能力（reasoning capabiliti ...

15 天

ICLR 2025 | 让大模型更懂时序的语境对齐来了！性能更优开销更低

实验表明，FSCA 在多个任务中均取得了更优的性能。尤其在 Few-Shot 预测和 Zero-Shot 预测中，FSCA 分别超越次优方法 6.7% 和 13.3%。FSCA 在 Few-Shot 和 Zero-Shot 预测任务中的出色表现表明，双尺度图结构成功引入了基于逻辑结构的先验知识。这进一步验证了正确的结构划分和逻辑引导对于大语言模型（LLM）理解时序数据的重要性。

12 天

LLM「啊哈时刻」竟会自我纠正，单体数学性能暴涨！UIUC华人一作

1 自我奖励指令跟随微调（IFT）。从初始LLM（例如，一个通用聊天机器人）开始，他们通过顺序拒绝采样过程收集演示数据，并进行微调，得到改进模型，该模型集成了自我奖励推理能力。

Hangzhou Daily16 天

Japanese entrepreneur proud to be part of Hangzhou’s story

In a modest office adorned with traditional Chinese calligraphy and offering a panoramic view of Hangzhou’s bustling skyline, ...

6 天

《自然》（20250306出版）一周论文导读

双中子星的合并会同时发射引力波（GW）和电磁波谱信号。众所周知，2017年对GW170817的多信使观测导致了宇宙学、核物理学和引力领域的科学发现。这些结果的核心是从GW数据（如GW170817）中获得的天空定位和距离，这有助于识别GW信号发出后11小时的相关电磁瞬变，即AT 2017gfo。

Thatsmags.com14 天

30 Awesome Upcoming Events & Offers in Guangzhou

Get ready for an electrifying night at Hooley’s on February 28, featuring five top bands including USB, Reptile Dysfunction, ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果