Transformers LLM - 搜索 News

主要记录大语言大模型（LLMs）算法（应用）工程师相关的知识及面试题. Contribute to jxzhangjhu/llm development by creating an account on GitHub.

pip换源和安装依赖包 # 升级pip python -m pip install --upgrade pip # 更换 pypi 源加速库的安装 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install modelscope transformers sentencepiece ...

腾讯网1 天

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心报道机器之心编辑部何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR ...

51CTO17 天

鸿蒙开发者社区

4） Sentence Transformers：语义搜索和嵌入神器在使用LLMs时，我很快意识到“嵌入”（Embeddings）的重要性。嵌入是一种由LLM生成的密集向量表示，可以帮助模型理解文本之间的语义关系。而 Sentence Transformers 则是处理嵌入任务的不二之选。 Sentence Transformers能做什么？

1 天

何恺明LeCun暴击Transformer命门，9行代码砍掉归一化层！性能反而更强了？

【新智元导读】 Transformer架构迎来历史性突破！刚刚，何恺明 LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能不减反增的奇迹。

腾讯网4 天

FANformer：融合傅里叶分析网络的大语言模型基础架构

点击上方“Deephub Imba”,关注公众号,好文章不错过 !近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大的聊天模型，但在多项关键基准测试上的表现却不及某些规模较小的模型 ...

2 天

刚刚，谷歌开源单 GPU 最强模型 Gemma 3：小模型性能超越 Llama-3、DeepSeek-V3

谷歌在其官方博客中表示，Gemma 3 是一组轻量级的模型，开发者可以在手机、笔记本电脑以及工作站这些设备上直接快速地运行。该模型支持超过 35 种语言，并具备分析文本、图像及短视频的能力。

1 天

刚刚，谷歌用更少参数打败 Qwen 2.5-32B，新模型 Gemma 3 号称“单 GPU ...

19 天

一文看懂 DeepSeek 刚刚开源的 FlashMLA，这些细节值得注意

听起来很复杂，但简单来说，它就像是一个超级高效的「翻译器」，能让计算机更快地处理语言信息。它能让计算机处理各种长度的语言信息，而且速度特别快。比如，你在用聊天机器人的时候，它能让你的对话更快地得到回复，而且不会卡顿。为了提高效率，它主要通过优化一些复杂的计算过程。这就像是给计算机的「大脑」做了一个升级，让它在处理语言任务时更聪明、更高效。

19 小时

当AI来到华尔街：对冲基金经理们该担心自己的饭碗吗？

巴利亚斯尼资产管理公司的首席经济学家Chris ...

日经中文网4 天

DeepSeek冲击的真意：盲目扩张只会造就更多“鱼脑AI”

由于中国AI企业DeepSeek开发出了高性能的低成本大语言模型，2025年1月下旬，英伟达（NVIDIA）等美国高科技公司的股价暴跌。“DeepSeek冲击”这一说法，可能模仿了前苏联在1957年成功发射全世界第一颗人造卫星“斯普特尼克1号（Spu ...

虎嗅网15 天

如何使用DeepSeek开发AI应用？

DeepSeek提供了多个模型系列，主要包括： DeepSeek-LLM：基础大语言模型 DeepSeek-Coder：专为代码生成优化的模型 DeepSeek-Math：擅长数学推理的模型 DeepSeek-VL：视觉语言模型根据你的应用需求选择合适的模型。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果