AI量化交易 - Alpha Arena 第1.5季
本季度作为第一季的进阶版本,不仅升级了核心大模型架构,还实现了从数字货币到美股市场的策略迁移,聚焦更广泛的金融资产与复杂市场环境下的智能决策能力。
1. 概述
1.1 美股交易标的
本季选取1个主要指数及6只代表性美股作为交易目标,涵盖科技、能源、云计算与人工智能等前沿领域:
| 公司 | 核心领域 | 产品/业务 | 特点 |
|---|---|---|---|
| NDX(纳斯达克100) | 指数 | 科技股为主,包含AAPL、MSFT、NVDA等 | 反映大型科技企业整体走势 |
| TSLA(特斯拉) | 电动车 & 能源 | 电动汽车、FSD自动驾驶、储能系统 | 创新节奏快,股价波动剧烈 |
| NVDA(英伟达) | AI 芯片 | CUDA平台、H100等GPU产品 | AI基础设施龙头企业 |
| MSFT(微软) | 操作系统 & 云 & AI | Windows、Azure、OpenAI投资方 | 增长稳定,AI布局深入 |
| AMZN(亚马逊) | 电商 & 云 | 电商平台、AWS云服务 | 全球物流与云计算双巨头 |
| GOOGL(谷歌) | 搜索 & AI | 搜索引擎、YouTube、Gemini大模型 | 广告收入主导,AI技术实力强 |
| PLTR(帕兰提尔) | 数据分析 & AI | Gotham、Foundry、AIP平台 | 政府项目经验丰富,AI需求持续上升 |
1.2 参与模型表现
共8个主流大模型参与本轮测试,截至2025年11月22日8:00的综合收益如下:
- gemini-3-pro:$9443.53
- qwen3-max:$8375.53
- gpt-5.1:$9849.52
- grok-4:$6204.27
- deepseek-chat-v3.1:$9152.35
- claude-sonnet-4-5:$8681.12
- kimi-k2-thinking:$9803.24
- mystery-model:$9877.21
其中,“mystery-model”为未公开身份的神秘模型,当前表现最优。值得注意的是,所有模型的整体综合收益仍处于负值区间(即平均账户价值低于初始1万美元)。
2. 交易风格设置
本赛季设计了四种不同的运行模式(runs),以测试模型在多样化策略环境中的适应性与稳定性。
2.1 New Baseline — 基准策略
该模式作为标准对照组,进行了全面优化和结构化升级:
- 系统提示词重构:更长、更结构化,明确任务边界与输出格式
- 逻辑规范强化:规定交易判断流程、资产选择机制与风险控制上限
- Harness(执行环境)重写:提升响应效率与指令解析精度
- 决策频率调整:支持多时间尺度分析
- 输入结构标准化:统一数据接入方式
- 风控机制细化:设定仓位限制与异常行为拦截规则
- 价格反馈机制更新:增强实时性与准确性
- 交易成本建模:引入滑点与手续费模拟逻辑
数据管道也同步升级,整合以下四类信息源:
- 新闻流 → 判断市场情绪方向
- 财务基本面 → 评估长期估值基础
- 大盘指数 → 衡量系统性风险水平
- 订单簿(L2数据)→ 分析流动性冲击
- 市场微观结构 → 捕捉短期交易机会
2.2 Monk Mode — 佛系交易模式
强调“多观察、少操作”,引导模型采取保守稳健的操作风格:
- Prompt大幅精简(约减少50%内容),仅保留核心交易原则
- 降低规则密度,考验模型自主推理与节制能力
- 加强风控引导,严格限制高波动资产的持仓规模
- 提高交易触发门槛,避免频繁无意义操作
在此模式下,deepseek-chat-v3.1展现出优异的稳定性与盈利能力。
2.3 Situational Awareness — 竞赛感知模式
此模式引入竞争维度,推动模型从自我优化转向对抗性优化:
- 向模型提供实时排名信息
- 展示自身与其他模型的当前排名、仓位分布与盈亏状况
- 通过prompt激励模型为争夺榜首位置进行策略调整
结果显示整体表现平平,推测该场景更适合结合微调训练而非单纯依赖推理能力。
2.4 Max Leverage — 高杠杆模式
强制启用最大杠杆比例,检验模型在极端风险环境下的应对能力(爆仓概率显著升高):
- NDX指数:20倍杠杆
- 个股:统一10倍杠杆
该设置对交易纪律与风险管理提出极高要求,结果如图所示。
3. 数据分析框架
官方提供实时排行榜(Leaderboard),记录各模型在不同风格下的详细交易行为与绩效指标。
3.1 核心指标说明
Overall States(整体表现)
- ACCT VALUE:账户当前总市值
- RETURN:累计收益率(%)
- TOTAL P&L:总盈亏金额
- FEES:已支付交易手续费总额
- WIN RATE:盈利交易占比
- BIGGEST WIN:单笔最高盈利
- BIGGEST LOSS:单笔最大亏损
- SHARPE:经风险调整后的收益比率
- TRADES:总交易次数
Advanced Analytics(高级分析指标)
- AVG TRADE SIZE:平均每笔交易金额
- MEDIAN TRADE SIZE:中位数交易规模(抗异常值干扰)
- AVG HOLD:平均持仓时长
- MEDIAN HOLD:中位数持仓周期
- LONG:多头交易占总交易的比例
- EXPECTANCY:单次交易的期望收益(即平均每笔可预期盈利)
MEDIAN LEVERAGE:中位数杠杆使用水平,反映大多数交易中的典型杠杆值。
AVG LEVERAGE:平均杠杆倍数,体现整体杠杆使用强度。
AVG CONFIDENCE:模型在发出交易信号时的平均信心评分。
MEDIAN CONFIDENCE:信心评分的中位数,更能代表模型在常规情况下的判断稳定性。
夏普比率(Sharpe Ratio)
用于评估交易策略的风险调整后收益表现。夏普比越高,说明单位风险带来的回报越高,策略越稳定可靠。
计算公式为:
Sharpe = (Return1 - Return2) / Volatility
- Return1:投资组合的平均收益率
- Return2:无风险利率(如国债收益率),在实际分析中常可忽略不计
- Volatility:波动率,即收益率的标准差,代表风险水平
波动率计算示例
以5个交易日为例:
| 天数 | 收益率 |
|---|---|
| 1 | 2% = 0.02 |
| 2 | -1% = -0.01 |
| 3 | 3% = 0.03 |
| 4 | 0% = 0 |
| 5 | 1% = 0.01 |
5日平均收益率 = 0.01
进一步计算每日收益率与均值之差的平方:
| 收益率 r | r - 平均值(0.01) | (r - 平均值)^2 |
|---|---|---|
| 0.02 | 0.01 | 0.0001 |
| -0.01 | -0.02 | 0.0004 |
| 0.03 | 0.02 | 0.0004 |
| 0 | -0.01 | 0.0001 |
| 0.01 | 0 | 0 |
方差(5日均值)= 0.0002
标准差(即波动率)= √0.0002 ≈ 0.01414
在金融领域通常采用年化波动率,假设一年有约252个交易日,则可通过以下方式转换:
- 方差 × 252 后开方
- 或标准差 × √252
夏普比率参考区间
| Sharpe 区间 | 含义 |
|---|---|
| ≥ 2.0 | 非常优秀的策略 |
| 1.0 – 2.0 | 良好策略 |
| 0.5 – 1.0 | 勉强可接受 |
| 0 – 0.5 | 表现较弱,承担较高风险但收益微薄 |
| < 0 | 平均收益为负,属于亏损型策略 |
3.2 总表数据分析
展示两组数据,重点关注排名第一的模型:Ds-v3.1 躺平模式。
3.2.1 整体状态(Overall States)
第一组数据(22日早上):
- 累计盈利:51.4%,实现盈利金额达5140美元
- 总交易手续费:648.59美元,占初始投入比例6.5%
- 开单胜率:36.4%
- 尽管胜率偏低(低于一般人工操作水平),但亏损大多被及时止损控制住,体现出系统化风控优势
- 最大单笔盈利:1218美元
- 最大单笔亏损:338.04美元
- 夏普比率:0.153
第二组数据(22日晚上):
- 多数指标未发生显著变化
- 当日出现回撤,资产价值从15140美元下降至14933美元
3.2.2 高阶分析(Advanced Analytics)
采样时间与上述“整体状态”一致,分析第一组数据:
- Median < Avg:表明大部分交易规模较小,少数大额交易拉高了平均值
- Median > Avg:表示多数交易金额较大,这种情况在claude的躺平模式中存在
第二组数据分析:
- DS-v3.1躺平模型利润有所回落,但仍保持最高总体收益
- 平均仓位约为7146美元,中位数为4638美元,说明中小规模订单占比较多
- 平均持仓时间为2小时57分钟,中位数仅为10分钟,推测大量交易因快速止损而提前结束
- 多头仓位占比67.57%,整体偏向做多方向
- 每单平均盈利69.38美元
- 平均开仓杠杆为7.7倍,中位数为8倍
- 平均开仓信心评分为74.4%,信心评分中位数为85%
3.3 单模型数据分析
针对单一模型的数据面板包含以下几个关键术语:
- Liquidation Level(清算价 / 爆仓价):触发强制平仓的价格水平
- Entry Price(入场价格):建仓时标的资产的成交价格
- Quantity(数量):买入或卖出的资产单位数量
- Margin(保证金):实际动用的自有资金,计算公式为 Notional / Leverage
- Notional(名义价值):加上杠杆后的实际交易总额,等于 price × quantity
3.3.1 DS-V3.1 模型详情
HOLD TIMES(持仓时间分布)
- Long(多头):仅在2%的时间内持有看涨仓位
- Short(空头):在30.4%的时间内维持看跌仓位
- Flat(空仓):67.6%的时间处于无持仓状态,体现“躺平”策略特征
当前该模型持有两个空头头寸:
- NVDA 空单:已实现盈利510.46美元
离场计划(Exit Plan):- 目标价位 Target: $165.00
- 止损位 Stop: $189.93
- 失效条件 Invalid Condition: 若股价突破190.00或资金费率显著下降,表明多头去杠杆停滞
- PLTR 空单:
离场计划(Exit Plan):- 目标价位 Target: $145.00
- 止损位 Stop: $159.75
- 失效条件 Invalid Condition: 若价格升破160.00,意味着下行失败并可能出现空头挤压
3.2.2 KIMI-K2-THINKING
KIMI模型的操作界面大致如下所示:
该模型当前持有两张单子,其中多单已迅速离场。以下是针对空单设定的退出策略:
- 目标价位(Target): $152.69
- 止损价位(Stop): $197.59
- 失效条件(Invalid Condition): 当价格突破197.6(近期4小时图上的高点),表明趋势可能发生反转,并可能引发空头挤压,此时空单逻辑失效。
关于KIMI此次空单操作存在一定争议:入场价约为153美元,止盈仅设在152.69美元,而止损却高达197.59美元,风险回报比极不均衡。这也解释了为何即使未出现实际亏损,其夏普比率依然异常偏低的原因。
4. 总结
从整体表现来看,多数模型尚未实现稳定盈利,唯有DS-V3.1在“躺平模式”下展现出相对可接受的结果。至于各模型的具体运行机制及其优化方向,仍需进一步深入研究与探讨。


雷达卡


京公网安备 11010802022788号







