查看: 834| 回复: 0
收起左侧

[金工金数] 利用强化学习创建交易机器人

金融小瘪三 | 显示全部楼层
本楼:   👍  1
100%
0%
0   👎
全局:   9
100%
0%
0

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x

强化学习是机器学习的一个分支,之前又叫做Approximate Dynamic Programming,不过现在一般都叫做RL了。


人工智能也好,机器学习也好,最本质的问题是面对不确定性时如何做出好的决策。


比如具体到量化交易领域,我们要做的决策可以说是每个时刻,要买什么股票,卖什么股票;买多少,卖多少;是用限价单还是市价单等等,这些都是决策。
. check 1point3acres for more.

所谓不确定性,可以包括未来股票价格的变化是不确定的,另外我们的单子进入到市场之后,对市场的影响也是不确定的。
. 1point3acres

另外,强化学习涉及到几个方面:优化(Optimization)、延迟结果(Delayed Consequence)、探索(Exploration)、泛化(Generalization)


所谓优化,目标就是找到做决策的优解方法,使得可以获得更好或比较好的结果。


对于延迟结果,指的是我们现在做的决策会对未来一段时间都会有所影响。比如下单会造成冲击成本,会有暂时的冲击,以及长期的冲击。


探索指的尝试不同的决策,来获得不同的结果,不断学习改进。比如下围棋,每一步棋都要想着未来几步,模拟未来的棋局,探索哪一个位置最好,这就是探索的过程。

. .и
最后就是泛化。比如下棋,不可能每一种情况过去都模拟过,未来肯定会遇到没见过的棋局,因此过去的模型必须要有泛化的能力,这样遇到了没见过的棋局也可以应付。
.google  и
..
相比监督学习和无监督学习,它们并没有做决策的过程,所以并没有上述说的“优化”的步骤;当然,监督学习要最小化误差,这可以理解为优化的一种方式;但两个优化不是一个意思,强化学习里说到优化一般指找到一个最有策略,从这个角度监督学习和无监督学习都没有优化。. From 1point 3acres bbs


另外,监督/无监督学习也没有所谓探索试错的过程,也没有延迟结果这个东西;但监督/无监督学习都有泛化的特征。这是它们与强化学习的区别。

评分

参与人数 1大米 +1 收起 理由
yikehongxin + 1 赞一个

查看全部评分


上一篇:互联网转行量化交易靠谱吗?
下一篇:简单的说下量化交易系统怎么搭建
您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表