简单来说,DeepSeek-V3仅使用了2048块英伟达H800 GPU,耗费了557.6万美元就完成了训练,相比同等规模的模型(如GPT-4、GPT-4o、Llama 3.1),训练成本大幅降低。
“10 万张 H100 GPU 训练”、“证明黎曼猜想”、“最聪明的 AI”。Grok-3 未发布就赚足了眼球,今天中午,一如既往的迟到后,被马斯克称为“Smartest AI on Earth”的 Grok-3 ...
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,其起源于一家中国的对冲基金公司High-Flyer。2023年5月High-Flyer剥离出一个独立实体,也就是DeepSeek。这是一家致力于打造高性能、低成本的 AI ...
近期,DeepSeek的崛起引发了硅谷风险投资人和创业者的广泛讨论。作为人工智能领域的一股新兴力量,DeepSeek的快速发展让人们开始重新思考AI创新的未来、开源模式的统治力,以及传统AI商业模式的可持续性。这场讨论的核心在于:DeepSeek究竟 ...
不再需要最先进的芯片来训练大模型,“DeepSeek-V3模型是在英伟达H800上训练的,这是英伟达为中国客户定制的速度较慢的GPU。然而,AMD的MI 300X GPU在关键基准测试中表现优于H100。因此,DeepSeek可以在AMD GPU上支持最先进的模型训练。” 免责声明:本文内容与数据 ...
随着中国新兴企业DeepSeek宣布以低成本开发出AI模型,图形处理器(GPU)的价格备受关注。有分析认为,DeepSeek使用的美国英伟达的GPU市场价格比美国企业使用的尖端产品便宜1~3成左右。似乎并不是极端便宜。
机器之心发布机器之心编辑部DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API ...
马斯克口中全世界最聪明大模型Grok-3,终于震撼登场!20万块GPU训出的模型,实属全球首次。果然,Grok-3已火速屠榜多个排行榜,击败o3-mini(high)和DeepSeek-R1。
随着AI技术的不断进步,芯片成本的降低将为更多企业提供了进入AI领域的门槛。DeepSeek-V3的成功开发展示了在成本控制下依然能够实现高性能AI模型的可能性。这一消息不仅为行业内的企业提供了新的选择,也为AI技术的普及和应用提供了更多的可能性。
近日,马斯克旗下的xAI公司发布了最新大模型Grok ...
当地时间2月17日18时,即北京时间2月18日12点,埃隆•马斯克(Elon Musk)的AI公司xAI正式推出最新的Grok 3模型,并称其是目前“地球上最聪明的AI”。 在不久前的迪拜世界政府峰会上,马斯克就给Grok ...
Meta技术报告显示,Llama 3.1 405B的预训练时长54天,使用了15万亿(15T)的tokens以及1.6万个英伟达H100 GPU进行训练。 DeepSeek-V3在预训练阶段,使用了14.8万 ...