我以为稳了,结果:别只盯结果 — 爱游戏官方网站历史回测表的历史数据早把数据断档写在前面

前言 很多人看回测第一眼只看收益曲线和夏普,觉得“稳了”。但回测的稳不稳,往往在数据细节里就被掏空了。历史数据断档(缺失、延迟、删档、幸存者偏差等)是回测里最容易被忽视也最致命的问题之一。把数据断档的说明写在最前面,不仅对读者负责,也能避免错误决策与不必要的争议。
常见导致断档的原因
- 退市或停牌导致的历史缺失(survivorship bias)。
- 数据供应商更新、合并或修正历史价格导致的时间差或缺失。
- 公司分红、配股、拆股未正确复权或反复修正。
- 不同交易时区、节假日规则与分钟/秒级数据的不一致。
- 行情抓取中断、API限流或采集脚本Bug导致的局部缺失。
断档带来的影响
- 过度乐观的收益和风险估计:峰值收益和低波动可能只是“缺失坏数据”的结果。
- 不真实的持仓与成交模拟:缺少成交量或盘口数据会高估可执行性。
- 回测难以重复验证:别人无法复现,信任度下降。
- 策略在真实市场中表现远差于回测。
在页面开头应该呈现的关键信息(直接写在回测说明前端)
- 数据来源与版本(供应商、抓取日期/时间、版本号)。
- 样本期覆盖范围(起止日期)与实际有效覆盖比例(例如:覆盖交易日占比95%)。
- 明显断档时间段与处理方式(如:2018-03-10 至 2018-04-02 因停牌导致数据缺失,已标记但未插值)。
- 是否剔除了退市/停牌样本(与否都会影响结果)。
- 是否进行了价格复权、股本调整与分红处理,如何处理。
- 交易成本、滑点、最小手数与流动性假设的具体数值。
样例披露文本(可直接放在页面最前) 本回测基于爱游戏官方网站历史回测表的数据(数据版本:V2025-11,抓取日期:2025-12-01)。样本区间为 2010-01-01 至 2024-12-31;在此区间中,有效交易日覆盖率为 93.6%。注意:2016-07、2018-03 与 2020-02 存在明显数据缺失或停牌期(已在结果图中用灰色区域标注),退市样本已按原始历史保留,未做幸存者偏差剔除。所有价格均做了前复权处理;回测包含固定交易佣金 0.03% 与每笔交易滑点 0.05%。如需下载原始数据与处理脚本,请点击页面底部“数据与代码”链接。
实际工作流程与修复建议(实践清单)
- 明确记录数据来源与抓取时间;版本化保存原始数据快照以便溯源。
- 先做覆盖率与缺失分析:按时间、品种、时间粒度统计缺失比例,并用热图或表格呈现。
- 对退市、停牌样本明确标记,决定是保留历史轨迹还是剔除并纪录理由。
- 复权与企业行为处理需使用稳定一致的规则,并记录公式与参数。
- 对于短时间的断档,可考虑合理插值并同时保留未插值版本作对比;对于长时间断档,建议直接标注并剔除相关样本或区段。
- 加入现实约束:成交量阈值、最大持仓比例、逐笔成交模拟或最小张数限制。
- 采用稳健性检验:滚动回测、滚动参数优化(walk-forward)、蒙特卡罗模拟、不同数据版本交叉检验。
- 开放可复现性:提供数据摘要、处理脚本及关键参数,允许他人验证。
如何在网站上直观呈现
- 把“数据说明/风险提示”块放到回测图表上方或显眼位置。
- 用覆盖率热图、缺失区间灰色遮罩、样本数曲线等可视化辅助说明。
- 提供“原始数据下载”和“处理日志”链接,增加透明度。
- 在回测结果旁并列“理想模型 vs. 现实约束”对照表,说明哪些假设被放宽、哪些被严格模拟。