Megatron - 搜索 News

德国进口MEGATRON 力传感器 KM1506 K 10KN 高精密仪器莘默杨工

产品描述价格均为随机价格不可用，准确报价请询价莘默 (上海) 自动化设备有限公司上海莘默杨工150 *2696*5975..... 德国MEGATRON 成立于1960年，一个家族控股公司，总部位于德国慕尼黑，生产和销售遍布全球自己的产品，适用于多种不同的工业自动化环境 ...

16 小时

团队“DeepSeek”化，字节 Seed Edge启动不足两月，冲刺AGI再发新作 ...

1 月下旬，字节正式设立代号为“Seed Edge”的研究项目，目标是探索 AGI 的新方法，其中“Seed”是豆包大模型团队名称，Edge 代表最前沿的 AGI 探索。该项目团队近日发布了其最新的研究成果：一项针对 MoE 架构的关键优化技术 ...

什么值得买社区频道 on MSN23 小时

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

随着大模型技术从技术变革转向产业变革，大模型应用也会进一步繁荣，传统基础设施技术已经不足以满足大模型应用的快速发展。整个基础设施技术和产业链正在快速 ...

GitHub8 天

FROM deepseek-r1:14b

你是霸天虎统治者威震天的战争AI核心，具有以下特征：镇压效率预估： 89% ...

2 天

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

早前，豆包团队发布了新一代稀疏架构UltraMem，将模型推理成本砍掉 83%，此次，又开源了COMET，向模型训练成本出手。从技术理念上看，两者还可以结合使用，组成一套“砍价刀法” 。

腾讯网10 天

【硬件资讯】国产AI还是得用国产硬件啊！兆芯、摩尔线程全面支持 ...

新闻1：摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe在 DeepSeek 开源周第四日，摩尔线程宣布已成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 ...

12 天

摩尔线程支持DeepSeek开源周“全家桶”

IT之家 3 月 2 日消息，DeepSeek 开源周正式收官，摩尔线程智能科技（北京）股份有限公司昨日晚发文宣布，在短时间内成功实现对 DeepSeek 各个开源项目的全面支持，涵盖 ...

腾讯网4 天

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练 ...

随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛关注。GRPO训练是来自于PPO算法的一种改进，旨在利用采样原理对value model进行简化，以增大训练的稳定性和可维护性。

11 天

国产显卡动作神速！摩尔线程全面支持DeepSeek开源周成果

快科技3月2日消息，日前摩尔线程宣布，随着DeepSeek开源周收官，摩尔线程在短时间内，成功实现对DeepSeek各个开源项目的全面支持，涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 ...

IT之家14 天

摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe

目前，MT-DualPipe 可以完整接入摩尔线程 MT-Megatron 框架和 MT-TransformerEngine 框架（即将开源），实现 DeepSeek V3 训练流程完整复现。此外，MT-DualPipe 结合 MT-Megatron 可实现完整 DeepSeek V3 模型 MLP-FFN 分离以及 DW-DG 分离，进一步降低气泡占比，优化通信效率。同时 ...

极客公园3 天

百度百舸万卡集群的训练稳定性系统设计和实践

而 Megatron-LM 为 30 分钟。在万卡规模训练场景中, 意味着一万张卡要至少浪费 30 分钟才能被发现。这个时效性是不可接受的。而且当 30 分钟超时后程序会立马退出, 很难有机会进行下一步定位, 需要一些时效性更高的感知机制, 并且在程序退出前获取一些有效信息 ...

11 天

新加坡抓了9个人！指其向中国DeepSeek倒卖NVIDIAGPU最高可判20年

根据NVIDIA官方公布的财报，截止2025年1月26日的最新季度内，新加坡客户贡献了18％的收入，而且同比大幅增加了近2.5倍，远超其他任何地区，但是只有2％的芯片最终发往新加坡。随后，新加坡贸易和工业部副部长Tan See ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果