SANA 1.5是一种高效可扩展的线性扩散Transformer,针对文本生成图像任务进行了三项创新:高效的模型增长策略、深度剪枝和推理时扩展策略。这些创新不仅大幅降低了训练和推理成本,还在生成质量上达到了最先进的水平。
这项研究首次明确指出了 LLMs 在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。这不仅加深了我们对 LLMs 工作原理的理解,也为模型改进提供了启发和洞见。例如: ...
深度学习领域围绕着如何改进 Transformer 架构的讨论从未停歇。此前,许多研究者试图寻找能够完全替代 Transformer ...
2024 年 3 月, Databricks推出了 DBRX,这是一款拥有 1320 亿个参数的开源 LLM。它采用细粒度的 MoE 架构,每个输入激活 16 位专家中的 4 位,拥有 360 亿个活动参数。该公司声称,该模型的表现优于 GPT-3.5 和 Gemini 1.5 Pro 等闭源模型。