1. 想法 & 假设:核心中的核心!
模型不是空中楼阁。先想清楚! 你的策略逻辑是什么?依据在哪?理论支撑是啥?比如做CTA趋势跟踪:你的核心假设是“趋势会延续”吗?交易频率是低频、中频还是高频?必须精准定义你要解决的问题和目标。 这一步决定了后面所有!
2. 数据收集:上限在此!
基于第一步的想法找数据。想做中频?那日度数据就够了。数据决定了你能解决问题的天花板,模型只是逼近它。数据源分公开API和专业数据源(详见行情数据收集笔记),选对很重要。
3. EDA探索分析:摸清数据底细!
拿到数据别直接喂模型!先做探索性分析(EDA):算算均值、中位数、分布,画图可视化。这步帮你:深刻理解数据特性、发现数据问题(如缺失、异常)、激发特征工程灵感(降维、构造新特征)。相当于给数据做“体检”。
4. 数据清洗:给数据“洗澡”!
处理EDA发现的问题。关键动作:
补缺: 缺失值咋办?合理填充(如前后填充backfill/ffill),但不能乱填!
对齐: 不同频率数据(如日度技术指标 vs 季度基本面)如何对齐?需要填充(Padding),但必须基于对数据分布的理解(这就是为啥EDA关键!)。
5. 特征转换:让数据“公平竞争”!
原始数据常“尺度不一”(如价格几元 vs 交易量几百万)。直接丢给模型?Garbage in, Garbage out! 必须缩放/标准化:
消除量纲影响,让特征可比。
加速梯度下降等优化算法的收敛。
常用方法:标准化(StandardScaler)、归一化(Normalization)。
6. 模型选择:对症下药!
选啥模型?回归(预测数值)?分类(预测类别)?还是上深度学习?回头看第一步! 你想预测明天股价具体数值?用回归。预测涨跌方向?用分类。目标决定了工具。
7. 评估 & 迭代:别怕回头!
模型训完不是终点!严格评估:
回归: 看RMSE、MSE、R^2。
分类: 看准确率、召回率、F1、交叉熵等。
结果不好?太正常!
检查: 仔细回看前面步骤(清洗干净没?特征转换对吗?模型选型合理不?)。
修改 & 重验证。
还不行?勇敢回到第一步! 重新审视你的核心假设和目标。
循环这7步,直到模型达标,才能部署实盘!
#深度学习 #机器学习 #创新点 #模型 #强化学习 #Python #计算机毕业设计 #计算机视觉