账户余额是最终的裁决标准。
账户余额是唯一的衡量标准。
本文经授权转载自深潮 TechFlow,作者:David,版权归原作者所有。
好消息:10月11日经历了史诗级大跌后,加密市场的交易热度开始回升。
坏消息:这次,是AI在交易中发力。
新的一周开始,市场逐渐活跃起来,一个名为nof1.ai的项目在加密社交媒体上引发了广泛关注。
核心焦点很简单:实时观察这个项目中的6个AI模型在Hyperliquid平台上的交易表现,看看谁能赚得最多。
值得注意的是,这不是模拟盘,而是真实交易。Claude、GPT-5、Gemini、Deepseek、Grok和通义千问这六个模型都用各自的1万美元真实资金在Hyperliquid上进行交易。所有地址公开,任何人都可以实时监控这场“AI交易员对决”。
有趣的是,这六个AI采用完全相同的提示词,接收相同的市场数据。唯一不同的,是它们各自的“思考方式”。
在10月18日上线后短短几天内,有的AI赚了超过20%,而有的则亏损接近40%。
1950年,图灵提出了著名的图灵测试,试图回答“机器是否能像人一样思考”;而现在,加密圈内的六大AI在“Alpha竞技场”上展开激烈角逐,带来一个更有趣的问题:
如果让最聪明的AI在真实市场中交易,谁能活下来?
也许,在这个币圈版的“图灵测试”中,账户余额就是唯一的裁判。
传统的AI评测,比如写代码、解数学题或写文章,核心在于静态环境测试。
题目固定、答案可预期,甚至很多内容在训练数据中已有出现。
但加密市场不同。
在信息极度不对称的情况下,每秒变动的价格没有标准答案,只有盈亏。更重要的是,加密市场本身是零和游戏,你赚的钱意味着别人亏钱,市场会快速且无情地惩罚任何错误决策。
举办这场AI交易大战的nof1团队在他们官网上特别写到:
“Markets are the ultimate test of intelligence”(市场是检验AI智慧的终极试炼)
如果说传统的图灵测试是在问“你能不能让人类无法分辨你是机器”,那么这个Alpha Arena实际在问:
你能不能在加密市场赚钱?这才是真正测试AI能力,也是币圈用户最关心的问题。
目前,6个AI模型在Hyperliquid上的地址公开,大家可以方便查阅它们的仓位和交易记录。
此外,nof1.ai官方网站也提供了它们的全部历史交易、仓位、盈利情况和思考过程的前端可视化,方便观察和分析。
对于不了解的读者,简单介绍这些AI的交易规则:
截至10月20日,也就是交易开启第三天,战局已经出现明显分化。
目前领先的是Deepseek Chat V3.1,资金余额为12,533美元(盈利25.33%);紧追其后的是Grok-4,余额为12,147美元(盈利21.47%);Claude Sonnet 4.5则为11,047美元(盈利10.47%)。
表现较一般的,包括Qwen3 Max,余额10,263美元(盈利2.63%); 而GPT-5表现最差,余额7,442美元(亏损25.58%);最落后的则是Gemini 2.5 Pro,仅为6,062美元(亏损39.38%)。
Deepseek的表现尤其令人意外,又似乎合理。
主要原因是,Deepseek背后是幻方量化团队,这家管理规模超千亿人民币的巨头,早已凭借算法交易打下坚实基础。将AI融入真实交易,似乎是“回归老本行”。
相比之下,OpenAI的GPT-5亏损超过25%,谷歌的Gemini更是亏损接近40%,显示出纯粹依赖语言模型的风险。
在真实市场环境中,光有强大的语言能力还不足以成功,理解市场的能力更为关键。
如果你从10月18日开始监控Alpha Arena,会发现最初各AI表现相仿,但时间越长,差距越大。
第一天,Deepseek最多赚了4%,而Qwen3亏损超过5%。大部分AI都在±2%的范围内徘徊,像是在“试探市场”。
到10月20日,局面急剧变化。Deepseek飙升至25%以上,而Gemini跌到-39%。短短三天,前后差距扩大到65个百分点。
交易频率差异也很明显。
Gemini完成了44笔交易,平均每天大约15笔,像个焦虑的投机者;而Claude只操作了3笔,Grok甚至还有未平仓的仓位。这些差异不能仅凭提示词解释,因为它们都使用相同的提示。
从盈亏分布来看:Deepseek最大单笔亏损为348美元,但整体盈利达2,533美元;而Gemini最大单笔盈利为329美元,但最大亏损高达750美元。
不同模型(都是未经过二次调优的公开大模型)对风险与收益的平衡表现截然不同。
你可以在模型聊天(Model Chat)界面看到它们的对话和思考流程,那些自述特别有意思。
就像人类交易者有不同的投资风格,AI也展现出了不同的“个性”。Gemini交易频繁,思考像多动症患者;Claude则非常谨慎,像个稳健的基金经理;Deepseek表现稳健,只关注仓位,不带情绪色彩。
这些性格特征,似乎不是人为设计编码的,而是在训练中自然形成的。面对不确定性时,不同AI倾向于采取不同的方法。
所有AI都看到相同的K线图、成交量和市场深度,它们甚至用相似的提示词。那么,造成巨大差异的原因究竟是什么?
训练数据的影响或许是关键因素之一。
Deepseek背后由幻方量化管理,累计了十几年的交易数据和策略,即便不直接用于训练,也可能影响其对“好交易决策”的理解。
与之相比,OpenAI和Google的训练语料库更偏向学术论文和网络文本,可能对实盘交易的理解相对有限。
同时,有交易员推测,Deepseek在训练时可能特别强化了时间序列的预测能力,而GPT-5则更擅长处理自然语言。在面对价格图表等结构化数据时,架构差异可能导致表现不同。
当大家都在关注AI的盈利情况时,反而很少有人注意到这背后那家神秘公司。
这场AI交易大战由nof1.ai发起,知名度不高,但从他们的社媒关注者名单来看,其团队成员都非常专业。
创始人Jay A. Zhang的简介很有趣: “Big fan of strange loops - cybernetics, RL, biology, markets, meta-learning, reflexivity”。
“reflexivity”(反身性)是索罗斯的核心理念:市场参与者的认知影响市场,市场变化反过来又影响参与者认知。由研究“反身性”的人来做AI市场实验,具有浓厚的宿命感。
让所有人观察AI的交易行为,看看“被观察”会对市场产生何种影响。
合伙人Matthew Siper是纽约大学机器学习方向的博士候选人,也是一名AI科学家。还在攻读博士,却在参与项目,更像是学术验证的实践。
此外,他们的关注账号中还包括Google DeepMind的研究员以及纽约大学的副教授,专注于AI和游戏领域的研究。
由此可见,nof1团队并非是为了炒作,他们的目标可能是构建AI交易能力的基准测试平台,类似于夏普比率(Sharpe Ratio)这样的风险调整后收益评估指标。
有人猜测,nof1背后可能有大资本支持,也有人认为他们是在为未来的AI资产管理或企业级交易解决方案做准备。
如果推出订阅Deepseek的交易策略服务,必然会引来不少客户。而未来,基于此,他们还可以发展成为AI资产管理、策略订阅和企业交易解决方案的商业模式。
除了团队本身,观察AI交易的热潮也商机无限。
Alpha Arena刚一上线,就有人开始跟单操作。
最简单的策略是跟着Deepseek操作——它买什么,我们也买;卖什么,我们也卖。有人在评论区还会反向操作,专门对付Gemini,Gemini买入时卖出,卖出时买入。
但跟单也存在风险:当所有人都知道Deepseek在做什么时,这个策略还能奏效吗?这也是Jay Zhang提到的反身性:观察本身会影响被观察对象。
实际上,很多人误以为能“复制”AI交易逻辑,但实际上只看到最终的交易结果,交易背后的逻辑和止盈止损策略并不完全透明。
当市场上各种散户和专业交易员试图“偷师”时,唯一真正不被观察的“主体”就是AI本身——它按程序稳步执行每一笔交易,或许还会产生意想不到的效果。
如果说经典的图灵测试在于“欺骗”与“模仿”,那么当前的AI交易大战则关乎加密玩家对于AI能力与交易结果的认知。
在这个以结果为导向的加密市场,会盈利的AI,可能比会聊天的AI更为重要。
相关推荐:OpenSea否认NFT“转向”,称正向“交易一切”的平台演进中。