Transformers LLM - 搜索 News

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心报道机器之心编辑部何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR ...

1 天

何恺明LeCun暴击Transformer命门，9行代码砍掉归一化层！性能反而更强了？

【新智元导读】 Transformer架构迎来历史性突破！刚刚，何恺明 LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能不减反增的奇迹。

腾讯网4 天

FANformer：融合傅里叶分析网络的大语言模型基础架构

点击上方“Deephub Imba”,关注公众号,好文章不错过 !近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大的聊天模型，但在多项关键基准测试上的表现却不及某些规模较小的模型 ...

2 天

刚刚，谷歌开源单 GPU 最强模型 Gemma 3：小模型性能超越 Llama-3、DeepSeek-V3

谷歌在其官方博客中表示，Gemma 3 是一组轻量级的模型，开发者可以在手机、笔记本电脑以及工作站这些设备上直接快速地运行。该模型支持超过 35 种语言，并具备分析文本、图像及短视频的能力。

1 天

刚刚，谷歌用更少参数打败 Qwen 2.5-32B，新模型 Gemma 3 号称“单 GPU ...

19 小时

当AI来到华尔街：对冲基金经理们该担心自己的饭碗吗？

巴利亚斯尼资产管理公司的首席经济学家Chris ...

搜狐3 天

LayerSkip：颠覆大模型推理的新科技加速法

最近，一项创新技术LayerSkip脱颖而出，这是一种结合自推测解码（Self-Speculative Decoding）与大语言模型（LLM）提前退出（Early Exit）机制的新颖文本生成方法。本文将深入探讨LayerSkip的技术原理、实现方式、实际应用以及在🤗Transformers库中如何利用这一方法。

日经中文网4 天

DeepSeek冲击的真意：盲目扩张只会造就更多“鱼脑AI”

由于中国AI企业DeepSeek开发出了高性能的低成本大语言模型，2025年1月下旬，英伟达（NVIDIA）等美国高科技公司的股价暴跌。“DeepSeek冲击”这一说法，可能模仿了前苏联在1957年成功发射全世界第一颗人造卫星“斯普特尼克1号（Spu ...

站长之家6 天

AI21 Labs发布Jamba 1.6，打破长文本处理极限、支持多种语言

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果