来自阿里, Qwen2.5-Max ,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。 同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。 特别是 在编程、数学等方面表现格外突出 ,能够与满血o1、DeepSeek-R1并列第一。 Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前 ...