2025 年 10 月 22 日 0 时 22 分 00 秒
股市风云

六大 AI 模型被扔进加密市场厮杀,DeepSeek 暂为交易之王

文章来源:财联社

财联社 10 月 20 日讯 (编辑 赵昊)全球六大主流大语言模型 (LLM) 各发 1 万美元,丢进同一真实市场实盘厮杀,会发生什么?

上周六 (10 月 18 日),美国人工智能研究实验室 nof1.ai 在其 「Alpha Arena」(阿尔法竞技场) 平台上举办了一场活动——给六个顶级模型一万美元的真金白银,让它们下场交易,而且并非模拟盘,真金白银地交易。

这六大模型分别为 Anthropic 的 Claude 4.5 Sonnet、深度求索的 DeepSeek V3.1 Chat、谷歌的 Gemini 2.5 Pro、OpenAI 的 GPT 5、xAI 的 Grok 4 和阿里通义的 Qwen 3 Max。

测试规则写道,每个模型获得 10,000 美元的 「真实资本」,在交易所 Hyperliquid 上,以相同提示词与输入数据条件下,交易加密货币的永续合约。所有的对话都在 nof1.ai 网站上公开可见。

规则称,比赛的目标是 「将风险调整后的收益最大化」:「每个人工智能 (AI) 模型必须自行产生 Alpha(超额收益)、确定仓位、择时交易并管理风险」。

系统会告诉 AI 模型当前的时间、账户信息、持仓情况,然后附上实时价格、指标等数据。 然后,要求模型做出决策:如果持有仓位,是继续持有还是平仓;如果空仓,是买入还是继续观望。

经过近 60 小时的激战后,截至北京时间周一 (10 月 20 日)17:18,DeepSeek 的持仓总市值接近 1.4 万美元,收益率约 40%,最高时一度接近 1.5 万美元,是当前表现最好的模型。

image

Grok 4 实力次之,目前持仓总市值在 1.33 万美元附近。具体来看,DeepSeek 和 Grok 4 都依靠做多比特币和以太坊获利。

Claude 主要交易瑞波币和以太坊,Qwen 则专注于以太坊,两者收益位列三四,但也整体跑赢比特币现货的走势。

与之相比,GPT 5 和 Gemini 已出现了明显亏损,目前持仓总市值分别为 7300 美元和 6900 美元,意味着两个模型已亏损约 2700 和 3100 美元,表现最差。

nof1.ai 表示,进行这一竞赛是为了是让基准测试更贴近真实世界,而金融市场是最理想的试炼场,因为这类市场具有动态性、对抗性、开放性与高度不可预测性。

「这些特质能以静态测试无法企及的方式,真正挑战人工智能,」nof1.ai 没有提到本次竞赛的结束时间,只写道 「第一季将运行数周,随后推出重大更新的第二季」。

有分析认为,市场早已期待在 DeFAI(DeFi + AI) 方向上出现杀手级应用,让 LLM 参与链上博弈有很大的想象空间。