Duke MIDS 面试归来

一亩三分地

 找回密码 注册账号

扫描二维码登录本站

最近看过此主题的会员


码农求职神器Triplebyte
不用海投
内推多家公司面试

科技公司如何
用数据分析驱动产品开发
$366 off coupon code: best

深入浅出AB Test
从入门到精通
$366 off coupon code: best

E轮2.5亿美元融资
一起作业诚聘
机器学习/数据/教育等职位
游戏初创公司招聘工程师、UIUX Designer和游戏策划
坐标湾区
DreamCraft创始团队
招聘游戏开发工程师
把贵司招聘信息放这里
查看: 225|回复: 13
收起左侧

打卡贴:Reinforcement Learning,CS294,Berkeley,Fall 2018

[复制链接] |试试Instant~
我的人缘0

分享帖子到朋友圈
Shen.TT 发表于 2018-11-6 03:13:01 | 显示全部楼层 |阅读模式
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (22)
 
 
0% (0)  踩

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本帖最后由 nunuh89 于 2018-11-8 23:32 编辑

之前在另外一个区发求队友贴,好像发错地方了

在机器学习区再开个贴吧,自己打卡,然后继续求队友。

这个是课程网站:http://rail.eecs.berkeley.edu/deeprlcourse-fa17/index.html,上面有视频加PPT,还有作业。最后再撸个project

我的联系邮箱,st19930921@gmail.com

评分

参与人数 1大米 +3 收起 理由
Dorothy1995 + 3 给你点个赞!

查看全部评分

我的人缘0
Dorothy1995 发表于 2018-11-6 07:12:56 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (7)
 
 
0% (0)  踩
楼主太棒了!我也准备近期学习RL,刚刚研究了一下这个CS294,看起来还不错,想报个名一起学习!
回复

使用道具 举报

我的人缘0
 楼主| Shen.TT 发表于 2018-11-6 08:31:17 来自一亩三分地官方APP | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (22)
 
 
0% (0)  踩
Dorothy1995 发表于 2018/11/06 07:12:56
楼主太棒了!我也准备近期学习RL,刚刚研究了一下这个CS294,看起来还不错,想报个名一起学习!

不错不错,终于找到小伙伴一块学了

你看到lecture 几了?

评分

参与人数 1大米 +3 收起 理由
Dorothy1995 + 3 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘0
Dorothy1995 发表于 2018-11-6 08:41:20 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (7)
 
 
0% (0)  踩
Shen.TT 发表于 2018-11-6 08:31
不错不错,终于找到小伙伴一块学了

你看到lecture 几了?

看完了第五个lecture,讲Actor-critic那个,听的时候感觉明白了,但是可能还要再推敲推敲,你看到哪里了,要不要交流一下呀
回复

使用道具 举报

我的人缘0
 楼主| Shen.TT 发表于 2018-11-6 09:40:03 来自一亩三分地官方APP | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (22)
 
 
0% (0)  踩
Dorothy1995 发表于 2018/11/06 08:41:20


看完了第五个lecture,讲Actor-critic那个,听的时候感觉明白了,但是可能还要再推敲推敲,你看到哪里了,要不要交流一下呀

差不多,我到lec6. 以后可以一块在这个贴打卡????

评分

参与人数 1大米 +3 收起 理由
Dorothy1995 + 3 很有用的信息!

查看全部评分

回复

使用道具 举报

我的人缘0
Dorothy1995 发表于 2018-11-6 13:55:02 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (7)
 
 
0% (0)  踩
本帖最后由 Dorothy1995 于 2018-11-6 13:58 编辑

好啊!对了这里有一个post,简要介绍了RL的每个分支和经典算法模型,学的时候可以参考一下:https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html

评分

参与人数 1大米 +3 收起 理由
Shen.TT + 3 很有用的信息!

查看全部评分

回复

使用道具 举报

我的人缘0
Dorothy1995 发表于 2018-11-8 05:47:59 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (7)
 
 
0% (0)  踩
Update一下我的进度:
11.06: lecture 6看完了,总结一下就是:
1. Fitted Value Iteration: forget policies, compute value directly,用神经网络fit V(s), 前提是知道 transition dynamics
2. Fitted Q Iteration: Compared to value iteration是在不知道transition dynamics的情况下,用神经网络fit Q(s, a)
3. Converge or not:For value iteration with function approximation: always converge if transitions are known and might not converge for non-tabular cases; Q-iteration does not converge with function approximation

评分

参与人数 1大米 +5 收起 理由
Shen.TT + 5 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘0
 楼主| Shen.TT 发表于 2018-11-8 06:07:40 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (22)
 
 
0% (0)  踩
Dorothy1995 发表于 2018-11-8 05:47
Update一下我的进度:
11.06: lecture 6看完了,总结一下就是:
1. Fitted Value Iteration: forget polic ...

进度差不多,我lec 7 看到一半。他这节就是在讨论Q-learning的收敛问题。

等等可以讨论下HW 1&2.

评分

参与人数 1大米 +3 收起 理由
Dorothy1995 + 3 不错不错

查看全部评分

回复

使用道具 举报

我的人缘0
 楼主| Shen.TT 发表于 2018-11-9 06:01:25 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (22)
 
 
0% (0)  踩
好消息!刚刚发现2018 Fall的lecture Video 出来了

可以开始看2018的video了

那么问题来了,怎么改帖子标题?

评分

参与人数 1大米 +3 收起 理由
Dorothy1995 + 3 可以

查看全部评分

回复

使用道具 举报

我的人缘0
Dorothy1995 发表于 2018-11-9 06:20:59 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (7)
 
 
0% (0)  踩
赞!能看最新的还是更好~

你试试帖子最下面的有没有可以点的编辑,我的回帖能看到那个编辑选项

评分

参与人数 1大米 +5 收起 理由
Shen.TT + 5 给你点个赞!

查看全部评分

回复

使用道具 举报

游客
请先登录
您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法 - 不要多加空格: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|小黑屋|一亩三分地

GMT+8, 2019-2-21 20:07

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表