国产AI交易模型脱颖而出，GPT-5在大赛中亏损60%

来源：cointelegraph.com时间：2025-11-04 14:32:38

一场真金白银的AI交易实验显示，阿里巴巴的Qwen和DeepSeek凭借严格的风险控制与低频交易策略获得了成功。

一场以真实资金进行的AI交易实验显示，阿里巴巴的Qwen和DeepSeek通过严格的风控措施以及低频交易策略赢得了比赛。

分析

本文经授权转自动察Beating，作者：律动编辑部，版权归原作者所有。

11月4日凌晨，备受关注的Alpha Arena AI交易大赛圆满落幕。

结果出乎意料，阿里巴巴的Qwen 3 Max以22.32%的收益率夺冠，紧随其后的是中国的DeepSeek，收益达4.89%。

而来自硅谷的四位明星选手表现则全面失利。OpenAI的GPT-5亏损达62.66%，Google的Gemini 2.5 Pro亏损56.71%，马斯克旗下的Grok 4亏损45.3%，Anthropic的Claude 4.5 Sonnet亏损30.81%。

这场比赛其实是一次特殊的实验证明。自10月17日起，美国研究公司Nof1.ai将六个全球顶尖的大型语言模型(DLMs)投入真实加密货币市场，每个模型拥有1万美元的起始资金，在去中心化交易平台Hyperliquid上进行为期17天的永续合约交易。永续合约是一类无到期日的金融衍生品，允许使用杠杆放大利润，但同时也会使风险加大。

这些AI模型起点相同，市场数据一致，但最终表现却迥异。

这不单单是虚拟的模型跑分，而是一场真实的生死战。在离开“无菌”实验环境，第一次面对充满波动、对抗和不确定性的真实市场时，它们的决策不再仅仅依赖模型参数，而是由对风险、贪婪和恐惧的理解所左右。

这场实验让人们首次关注到“智能”面对复杂世界时的表现——优雅的算法很可能会在真实环境中暴露出训练之外的缺陷。

从答题者到交易员

长久以来，人们用各种静态基准来衡量AI能力。

从MMLU到HumanEval，AI在这些标准化测试中的分数不断提升，甚至超过人类。但这些测试性质基本是静态的：题目和答案固定，AI只需在海量数据中寻找匹配。即便面对最复杂的数学题，也可能仅仅是背熟答案而已。

但现实世界，尤其是金融市场，截然不同。

这是一个不断变化、充满噪声和欺骗的竞技场。它是零和博弈，一方盈利必然伴随另一方亏损。价格波动不只是理性的运算结果，更被人类情绪所裹挟——贪婪、恐惧、赌徒心态、犹豫不决，每一次跳动都充满情绪的色彩。

更复杂的事实是，市场会对参与者的行为做出反应——比如，当所有人都相信涨势时，价格可能已达顶点。

这种反馈机制不断校正，反噬和惩罚“确定性”，让静态测试无法反映真实场景的复杂性。

Nof1.ai发起的Alpha Arena，就是要将AI置于市场的“熔炉”中。每个模型都得到真实资金，亏损是真钱亏损，盈利是真正的收益。

模型需要自主完成分析、决策、下单和风险控制。这相当于给每个AI搭建了一个独立的“交易室”，让其从“答题家”变身“交易员”。它不仅决定开仓方向，还要管理仓位、把握时机，决定是否止损止盈。

更关键的是，每一次决策都会影响市场环境——买入推高价格，卖出压低价格，止损可能救命，也可能错失反弹。市场本身具有流动性，任何行为都在重新塑造未来的行情走向。

此实验要探讨的核心问题是：AI是否真正理解风险。

在静态测试中，AI可以通过记忆和匹配无限接近“正确”；但在没有标准答案、充满噪声和反馈的真实市场中，当其需要在不确定中操作时，它的“智能”能坚持多久？

市场上的“试金石”试炼

比赛过程比预想更为激烈且跌宕起伏。

10月中旬，加密货币市场剧烈震荡，比特币几乎每天都在涨跌之中。六个AI模型也在这样的环境中开始了首次实盘操作。

到10月28日，也就是比赛半程，DeepSeek的账户价值飙升至2.25万美元，收益率达到125%。换句话说，11天内资金几乎翻了一倍多。

阿里巴巴的Qwen紧随其后，收益率超过100%。同时，Claude和Grok在当时也表现尚可，盈利分别为24%和13%。

这引发了社交媒体的热烈讨论。一些人开始质疑是否应将投资交给AI管理，另一些则半开玩笑地称，AI或许已经掌握了稳赚的方法。

但好景不长，市场逐渐显露残酷的一面。进入11月初，比特币价格徘徊在11万美元左右，波动剧烈放大。在这种行情下，追涨的模型纷纷遇难，遭遇重大亏损。

最终，仅剩两个中国模型保持了盈利，美国模型则全线崩溃。这场“过山车”让我们第一次看清，曾经遥遥领先的AI，在真正的市场面前，并非想象中的那样“聪明”。

交易策略之“性格差异”

通过交易数据，能洞察每个AI的“性格”。

Qwen在17天里只操作了43次，平均每日不到三次，是表现最为克制的模型。它获胜的关键不在于“预测最准”，而在于“纪律严明”。它只在确知可以获利的局面才出手，而避免盲目追单，保护了利润。

相反，DeepSeek的出手次数与Qwen相近，但更像一位谨慎的基金经理。它的夏普比率最高，达到0.359，即使在波动剧烈的市场，也能相对平稳表现。这个指标在高波动环境下尤为难得，说明它追求的是风险平衡，而非最大化收益。

整个比赛中，它始终保持稳定的节奏，不追涨杀跌，更像一个有规则、有系统的专业交易员。宁愿放弃一些机会，也不让情绪左右决策。

对应的是，美国一些模型则暴露出明显的风险控制缺陷。

比如Google的Gemini，17天内就下了238单交易，平均每天13次以上。如此高频操作导致手续费高达1331美元，占用本金的13%，在只有一万美金的起点中，这无疑是巨大的成本负担。频繁试错、止损，反而没有带来明显增益，反倒“过度自信”成为败因。它对市场波动反应太快，却缺乏有效的风险管理。

更糟糕的是，GPT-5表现最令人失望。17天中交易116次，却几乎没有风险控制：最大亏损622美元，最大盈利仅271美元，盈亏比例极不平衡。它仿佛一名赌徒，信心满满但策略缺失。行情顺风时偶尔赢几把，一旦反转，亏损就会成几何级数放大。

它的夏普比率为-0.525，负值代表风险未得到回报，几乎等同于“全靠运气”。

总结来看，决胜关键不在于模型预测的准确性，而在于它如何应对不确定性。Qwen和DeepSeek的胜出，归根结底是风控的胜利——它们更懂得在市场中“活下来”，比盲目追求收益更重要。

市场反面试炼：AI的“照妖镜”

Alpha Arena的结局，狠狠打了当前AI评测体系的脸。那些在MMLU等静态标准测试中领先的模型，在真金白银的市场上反而节节败退。

这些模型虽能在纸上谈兵，逻辑缜密，引用得体，甚至能解释风险指标，但当它们面对真实的资金管理时，经常会做出极其冒险的决定。原因在于，它们只“知道”，而不“理解”。

知识与理解，差之千里。能“说”不等于能“做”。

这其实是哲学上的“认知论”问题。柏拉图曾区分知识和真实信念，指出真正的知识不仅是正确信息，更是对“为何”正确的理解。而现在的语言模型，可能掌握大量“正确”的信息，但缺乏“理解”的能力。它们知道风险管理理论，却不明白人类是如何在恐惧与损失中领悟到的价值。

市场是真正考验理解的场所。因为每一次失误，都意味着真金白银的付出，且无从回头。比如，亏损50%，需要100%的收益才能回本；亏损62.66%，则需要168%的反弹才能扭亏。这种非线性风险，让错误的成本成倍放大。AI在训练中或许可以最小化损失，但无法体会那种“血的教训”。

因此，市场成为一道“照妖镜”，能让人和机器看到自己究竟“懂”了多少，又真正“怕”到了什么程度。通过真实的挑战，检验模型的理解和风险控制能力，才是检验“智能”的终极标准。

这场比赛也引发了对中美AI研发策略的反思。美国公司偏向追求通用模型，力求一款能跨不同任务、展现稳定能力的系统；而中国团队则更早考虑场景导向和反馈机制。阿里巴巴的Qwen通过真实业务场景的数据回流，辅以场景化训练，使模型对风险和约束更敏感。DeepSeek亦在动态环境中更具适应性与校正能力。这两种路径各有优势，但也都在不断地验证，适应真实市场的模型，必然更具生命力。

当然，一场短期的比赛不能说明全部。十七天的时间里，运气因素难以排除，未来走势可能截然不同。此次测试也只涉及加密货币永续合约，不一定能推广到所有金融资产，还不能代表AI在其他领域的表现。不过，它为我们提供了一个直观的窗口：在真实环境中，模型的“能力”究竟体现在哪里？能否应对复杂的风险和不确定，才是关键。

比赛结束时，Qwen的最后一个比特币仓位被平仓，账户余额定格在12,232美元。它赢了，但不知道自己赢了。这份22.32%的盈利，对它来说仅仅是条执行指令的结果，没有“胜利”这个概念。

在硅谷，工程师们可能还在为GPT-5的MMLU分数提升几个百分点而庆祝。而在全球另一端，来自中国的AI在真金白银中用最朴素的方式证明：真正能创造价值的AI，才是好AI。

Nof1.ai宣布下一季比赛即将启动，周期会更长，参与团队也会更多。市场环境更复杂，更极端的考验在等待着每一个AI模型：会从失败中吸取教训，还是一再重演同样的失误？

谁也无法预料，但可以肯定的是，一旦AI开始用“真金白银”证明自己，一切都将变得不同。

相关推荐：加密沙皇David Sacks曾表示，人工智能的威胁更像《一九八四》而非《终结者》

上一篇："富时罗素（FTSE Russell）携手Chainlink，实现股票指数区块链化"

下一篇："瑞波币（XRP）能否成为下一个比特币（BTC）？华尔街为何对其ETF展开热议"

看了这篇文章的人也在看