当前位置: 首页 > 资讯 > 区块链 >   正文

国产AI交易模型脱颖而出,GPT-5在大赛中亏损60%

一场真金白银的AI交易实验显示,阿里巴巴的Qwen和DeepSeek凭借严格的风险控制与低频交易策略获得了成功。

一场以真实资金进行的AI交易实验显示,阿里巴巴的Qwen和DeepSeek通过严格的风控措施以及低频交易策略赢得了比赛。

AI交易大赛落幕,国产模型夺冠,GPT-5亏损60% 分析

本文经授权转自动察Beating,作者:律动编辑部,版权归原作者所有。

11月4日凌晨,备受关注的Alpha Arena AI交易大赛圆满落幕。

结果出乎意料,阿里巴巴的Qwen 3 Max以22.32%的收益率夺冠,紧随其后的是中国的DeepSeek,收益达4.89%。

而来自硅谷的四位明星选手表现则全面失利。OpenAI的GPT-5亏损达62.66%,Google的Gemini 2.5 Pro亏损56.71%,马斯克旗下的Grok 4亏损45.3%,Anthropic的Claude 4.5 Sonnet亏损30.81%。

所有模型的交易曲线|图源:nof1

这场比赛其实是一次特殊的实验证明。自10月17日起,美国研究公司Nof1.ai将六个全球顶尖的大型语言模型(DLMs)投入真实加密货币市场,每个模型拥有1万美元的起始资金,在去中心化交易平台Hyperliquid上进行为期17天的永续合约交易。永续合约是一类无到期日的金融衍生品,允许使用杠杆放大利润,但同时也会使风险加大。

这些AI模型起点相同,市场数据一致,但最终表现却迥异。

这不单单是虚拟的模型跑分,而是一场真实的生死战。在离开“无菌”实验环境,第一次面对充满波动、对抗和不确定性的真实市场时,它们的决策不再仅仅依赖模型参数,而是由对风险、贪婪和恐惧的理解所左右。

这场实验让人们首次关注到“智能”面对复杂世界时的表现——优雅的算法很可能会在真实环境中暴露出训练之外的缺陷。

从答题者到交易员

长久以来,人们用各种静态基准来衡量AI能力。

从MMLU到HumanEval,AI在这些标准化测试中的分数不断提升,甚至超过人类。但这些测试性质基本是静态的:题目和答案固定,AI只需在海量数据中寻找匹配。即便面对最复杂的数学题,也可能仅仅是背熟答案而已。

但现实世界,尤其是金融市场,截然不同。

这是一个不断变化、充满噪声和欺骗的竞技场。它是零和博弈,一方盈利必然伴随另一方亏损。价格波动不只是理性的运算结果,更被人类情绪所裹挟——贪婪、恐惧、赌徒心态、犹豫不决,每一次跳动都充满情绪的色彩。

更复杂的事实是,市场会对参与者的行为做出反应——比如,当所有人都相信涨势时,价格可能已达顶点。

这种反馈机制不断校正,反噬和惩罚“确定性”,让静态测试无法反映真实场景的复杂性。

Nof1.ai发起的Alpha Arena,就是要将AI置于市场的“熔炉”中。每个模型都得到真实资金,亏损是真钱亏损,盈利是真正的收益。

模型需要自主完成分析、决策、下单和风险控制。这相当于给每个AI搭建了一个独立的“交易室”,让其从“答题家”变身“交易员”。它不仅决定开仓方向,还要管理仓位、把握时机,决定是否止损止盈。

不同模型的操作记录|图源:nof1

更关键的是,每一次决策都会影响市场环境——买入推高价格,卖出压低价格,止损可能救命,也可能错失反弹。市场本身具有流动性,任何行为都在重新塑造未来的行情走向。

此实验要探讨的核心问题是:AI是否真正理解风险。

在静态测试中,AI可以通过记忆和匹配无限接近“正确”;但在没有标准答案、充满噪声和反馈的真实市场中,当其需要在不确定中操作时,它的“智能”能坚持多久?

市场上的“试金石”试炼

比赛过程比预想更为激烈且跌宕起伏。

10月中旬,加密货币市场剧烈震荡,比特币几乎每天都在涨跌之中。六个AI模型也在这样的环境中开始了首次实盘操作。

比赛期间比特币价格走势|图源:TradingView

到10月28日,也就是比赛半程,DeepSeek的账户价值飙升至2.25万美元,收益率达到125%。换句话说,11天内资金几乎翻了一倍多。

阿里巴巴的Qwen紧随其后,收益率超过100%。同时,Claude和Grok在当时也表现尚可,盈利分别为24%和13%。

这引发了社交媒体的热烈讨论。一些人开始质疑是否应将投资交给AI管理,另一些则半开玩笑地称,AI或许已经掌握了稳赚的方法。

但好景不长,市场逐渐显露残酷的一面。进入11月初,比特币价格徘徊在11万美元左右,波动剧烈放大。在这种行情下,追涨的模型纷纷遇难,遭遇重大亏损。

最终,仅剩两个中国模型保持了盈利,美国模型则全线崩溃。这场“过山车”让我们第一次看清,曾经遥遥领先的AI,在真正的市场面前,并非想象中的那样“聪明”。

交易策略之“性格差异”

通过交易数据,能洞察每个AI的“性格”。

Qwen在17天里只操作了43次,平均每日不到三次,是表现最为克制的模型。它获胜的关键不在于“预测最准”,而在于“纪律严明”。它只在确知可以获利的局面才出手,而避免盲目追单,保护了利润。

相反,DeepSeek的出手次数与Qwen相近,但更像一位谨慎的基金经理。它的夏普比率最高,达到0.359,即使在波动剧烈的市场,也能相对平稳表现。这个指标在高波动环境下尤为难得,说明它追求的是风险平衡,而非最大化收益。

整个比赛中,它始终保持稳定的节奏,不追涨杀跌,更像一个有规则、有系统的专业交易员。宁愿放弃一些机会,也不让情绪左右决策。

对应的是,美国一些模型则暴露出明显的风险控制缺陷。

比如Google的Gemini,17天内就下了238单交易,平均每天13次以上。如此高频操作导致手续费高达1331美元,占用本金的13%,在只有一万美金的起点中,这无疑是巨大的成本负担。频繁试错、止损,反而没有带来明显增益,反倒“过度自信”成为败因。它对市场波动反应太快,却缺乏有效的风险管理。

更糟糕的是,GPT-5表现最令人失望。17天中交易116次,却几乎没有风险控制:最大亏损622美元,最大盈利仅271美元,盈亏比例极不平衡。它仿佛一名赌徒,信心满满但策略缺失。行情顺风时偶尔赢几把,一旦反转,亏损就会成几何级数放大。

它的夏普比率为-0.525,负值代表风险未得到回报,几乎等同于“全靠运气”。

总结来看,决胜关键不在于模型预测的准确性,而在于它如何应对不确定性。Qwen和DeepSeek的胜出,归根结底是风控的胜利——它们更懂得在市场中“活下来”,比盲目追求收益更重要。

市场反面试炼:AI的“照妖镜”

Alpha Arena的结局,狠狠打了当前AI评测体系的脸。那些在MMLU等静态标准测试中领先的模型,在真金白银的市场上反而节节败退。

这些模型虽能在纸上谈兵,逻辑缜密,引用得体,甚至能解释风险指标,但当它们面对真实的资金管理时,经常会做出极其冒险的决定。原因在于,它们只“知道”,而不“理解”。

知识与理解,差之千里。能“说”不等于能“做”。

这其实是哲学上的“认知论”问题。柏拉图曾区分知识和真实信念,指出真正的知识不仅是正确信息,更是对“为何”正确的理解。而现在的语言模型,可能掌握大量“正确”的信息,但缺乏“理解”的能力。它们知道风险管理理论,却不明白人类是如何在恐惧与损失中领悟到的价值。

市场是真正考验理解的场所。因为每一次失误,都意味着真金白银的付出,且无从回头。比如,亏损50%,需要100%的收益才能回本;亏损62.66%,则需要168%的反弹才能扭亏。这种非线性风险,让错误的成本成倍放大。AI在训练中或许可以最小化损失,但无法体会那种“血的教训”。

因此,市场成为一道“照妖镜”,能让人和机器看到自己究竟“懂”了多少,又真正“怕”到了什么程度。通过真实的挑战,检验模型的理解和风险控制能力,才是检验“智能”的终极标准。

这场比赛也引发了对中美AI研发策略的反思。美国公司偏向追求通用模型,力求一款能跨不同任务、展现稳定能力的系统;而中国团队则更早考虑场景导向和反馈机制。阿里巴巴的Qwen通过真实业务场景的数据回流,辅以场景化训练,使模型对风险和约束更敏感。DeepSeek亦在动态环境中更具适应性与校正能力。这两种路径各有优势,但也都在不断地验证,适应真实市场的模型,必然更具生命力。

当然,一场短期的比赛不能说明全部。十七天的时间里,运气因素难以排除,未来走势可能截然不同。此次测试也只涉及加密货币永续合约,不一定能推广到所有金融资产,还不能代表AI在其他领域的表现。不过,它为我们提供了一个直观的窗口:在真实环境中,模型的“能力”究竟体现在哪里?能否应对复杂的风险和不确定,才是关键。

比赛结束时,Qwen的最后一个比特币仓位被平仓,账户余额定格在12,232美元。它赢了,但不知道自己赢了。这份22.32%的盈利,对它来说仅仅是条执行指令的结果,没有“胜利”这个概念。

在硅谷,工程师们可能还在为GPT-5的MMLU分数提升几个百分点而庆祝。而在全球另一端,来自中国的AI在真金白银中用最朴素的方式证明:真正能创造价值的AI,才是好AI。

Nof1.ai宣布下一季比赛即将启动,周期会更长,参与团队也会更多。市场环境更复杂,更极端的考验在等待着每一个AI模型:会从失败中吸取教训,还是一再重演同样的失误?

谁也无法预料,但可以肯定的是,一旦AI开始用“真金白银”证明自己,一切都将变得不同。

相关推荐:加密沙皇David Sacks曾表示,人工智能的威胁更像《一九八四》而非《终结者》

最新快讯
快讯加载中...
查看更多
热门币种
BTC比特币
60,963.61 USDT
¥435,103.38
-2.72%
ETH以太坊
3,368.69 USDT
¥24,042.67
-0.3%
BNB币安币
570.68 USDT
¥4,073.00
-0.28%
USDT泰达币
1.02 USDT
¥7.25
-0.19%
SOL
135.96 USDT
¥970.36
+7.66%
USDC
1.00 USDT
¥7.15
-0.01%
TON
7.59 USDT
¥54.14
+4.55%
XRP瑞波币
0.47720 USDT
¥3.41
+0.48%
DOGE狗狗币
0.12210 USDT
¥0.87140
+2.43%
ADA艾达币
0.39050 USDT
¥2.79
+3.88%