一亩三分地

 找回密码 注册账号

扫描二维码登录本站


码农求职神器Triplebyte
不用海投
内推多家公司面试

Total Comp Calculator
输入offer信息
系统自动计算每年收入

科技公司如何
用数据分析驱动产品开发
coupon code 250off 立减$250

深入浅出AB Test
从入门到精通
coupon code 250off 立减$250
游戏初创公司招聘工程师、UIUX Designer和游戏策划
坐标湾区
DreamCraft创始团队
招聘游戏开发工程师
查看: 556|回复: 12
收起左侧

Bishop PRML自学打卡帖

[复制链接] |试试Instant~
我的人缘0

分享帖子到朋友圈
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (353)
 
 
0% (3)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
最近开始阅读Bishop的《Pattern recognition and Machine Learning》,开个自学打卡帖,有兴趣的小伙伴可以一起组队学习,讨论问题,分享进度和收获。
我的人缘0
 楼主| Self_Learner 2019-7-15 14:11:15 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (353)
 
 
0% (3)    👎
看了第一章Introduction的部分内容,主要介绍的内容有一下几点:
(1)Pattern recognition中的一些重要概念,如classification,regression, supervised learning, unsupervised learning, reinforcement learning, training set, validation set, model generalization 等等
(2)以Polynomial curve fitting为例,介绍了如何依据现有training dataset建立模型,用预测未知的input data的结果。围绕此,介绍了数据中的uncertainty, error function, 以及通过minimize error function来计算fitting model的coefficient。之后引入overfitting 的概念,介绍了model selection,data set size对于overfitting 的影响,以及用regularization或者validation set的方式来尽量避免overfitting. 最后简单介绍了Maximum likelihood方法和Bayesian方法的本质区别,Maximum likelihood无法避免overfitting的问题,而Bayesian模型中的effective number of parameter 会自适应size of dataset, 所以使用Bayesian模型不用担心overfitting的问题。(我没有明白这是为什么)
(3)介绍了概率论的基础,离散型和连续型,Sum rule (for marginal probability), Product rule (for conditional probability), Bayes' theorem 公式及内涵 (利用已观测的数据,将先验概率转化为后验概率)。介绍了期望与方差的定义,概率的频率轮与贝叶斯解释的差异(具体描述???),并以polynomial curve fitting 为例子,介绍了频率轮与贝叶斯方法对于uncertainly的归属性差异(???),前者将uncertainly归属于observed target value,而后者将其归属于model的coefficient本身(不太理解!!!)。介绍了likelihood function,描述了how provable the observed data set is for different setting of the parameter vector W. 此公式在频率论和贝叶斯解释中均有重要意义,但用法完全不同,在频率论中,W有固定的取值,其值取决于某个估计函数,而这个估计值的error bar取决于data set的统计分布。而贝叶斯解释认为,只有一个data set,即已观测到的data set,而parameter的uncertainty则以概率分布的形式表示。

评分

参与人数 2大米 +11 收起 理由
park02 + 10
杀G不成反被杀 + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   97% (66)
 
 
2% (2)    👎
最近也在读这本书,互相激励
回复

使用道具 举报

我的人缘0
 楼主| Self_Learner 2019-7-16 13:09:25 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (353)
 
 
0% (3)    👎
今天看了第一张的一小节,主要介绍高斯分布。介绍了高斯分布的概率密度函数,以及通过样本估计总体时的一个重要假设:独立同分布。在此基础上,用likelihood function来描述观测数据的概率,并通过最大似然近似推导出高斯分布的样本平均值和样本方差的形式,指出maximum likelihood的一个limitation就是它会systematically underestimate variance of the distribution, 因为可算得样本方差的平均值为(N - 1) / N * 实际方差。
之后从高斯分布的角度来理解polynomial curve fitting,将数据的target value t 看作是均值为f(x, W)的高斯分布,利用i.i.d 和 maximum likelihood原理,可得出我们用来估计多项式参数的最小平方误差法,其实就是最大似然值近似的演变,Bayesian curve fitting部分没怎么看懂。。。

评分

参与人数 1大米 +5 收起 理由
park02 + 5

查看全部评分

回复

使用道具 举报

我的人缘0
 楼主| Self_Learner 2019-7-17 13:47:23 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (353)
 
 
0% (3)    👎
看了第一节的部分内容, Model selection和The curse of dimensionality.
我们选择model的选择是该model需要具备良好的predicative performance,但在maximum likelihood approach方法总,model在training set中的表现往往不是好的predicative performance indicator,所以通常我们需要讲data set分为training set和validation set,用 training set来计算model的各个coefficient, 然后用validation set来判断model是否具有良好的预测性。但这种方式在数据量少时不合适。在数据量少时,可以用 cross-validation的方法,将数据分成N份,用其中N - 1份做training,剩下一份做Validation,将training的过程重复N次。这样做的问题是计算量比较大。所以最理想的状态是能够用Model在training set中的表现预测其predicative performance,并且training只需做一次。(所以有这种方法吗?不存在overfitting, 应该是贝叶斯,不过不知道细节。。。)
The curse of dimensionality, 讲的是体系中variance的数量增多会带来的一些问题,首先变量增大,相应的模型复杂度可能会呈幂增长或指数增长。同时一些低维度体系的intuition将在高维度体系中不再使用。但是实际应用中,针对高维数问题,还是有一些可适用的方法,这是因为,实际问题中,一者对target variable有决定性影响的要素往往是有限的,二者实际数据通常存在一些局域的smoothness properties,也就是稍微改动input,也只会稍微影响target variable,所以可以用一些局部插值的方法对target做预测。
回复

使用道具 举报

我的人缘0
facebbook 2019-7-17 22:22:57 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (8)
 
 
0% (0)    👎
看前面5章就可以了
回复

使用道具 举报

我的人缘0
facebbook 2019-7-17 22:25:31 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (8)
 
 
0% (0)    👎
本帖最后由 facebbook 于 2019-7-17 22:27 编辑

可以参考 CMU  ,Russ Salakhutdinov, Geoffrey Hinton 的学生
10707 (Spring 2019): Deep Learning  课件,

Bishop PRML  1-5 chapter

https://deeplearning-cmu-10707.github.io/syllabus.html

评分

参与人数 2大米 +7 收起 理由
park02 + 5
Self_Learner + 2 多谢!很有用的信息

查看全部评分

回复

使用道具 举报

我的人缘0
facebbook 2019-7-18 11:52:03 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (8)
 
 
0% (0)    👎
本帖最后由 facebbook 于 2019-7-18 11:56 编辑

课件大纲 和 Bishop PRML相关的内容。
https://deeplearning-cmu-10707.github.io/syllabus.html

Bishop PRML , 1-5 chapter

课程视频是公开的,大陆B站有。

==============================
snap034.png
回复

使用道具 举报

我的人缘0
 楼主| Self_Learner 2019-7-18 13:00:19 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (353)
 
 
0% (3)    👎
看了第一章的Decision theory, 基于体系的概率或概率分布,依照一定标准,对数据的分类或取值做出预测。inference stage + decision stage。

以classification problem为例,所谓“一定标准”主要有以下两种
(1) 使错误的分类数最少;
(2)由于不同的错误分类的情况的代价不一样,所以第二种方法一错误分类的总代价作为标准,需要定义cost metrics.
可以看看书,理解一下如何计算error function和costfunction。但最终数据的归类会依赖于p(Ck | x) 数据分布的后验概率。
具体到分类方法的试验,通常有三种做法,
(1)算联合概率p(x, Ck), 然后以此计算后验分布(生成模型)
(2)直接计算后验概率(判别模型)
(3)直接找到某一方程,将input map到某一特定的类别(判别方程)。
方法一的好处是能计算input 数据的分布(边际概率),所以可以找到outliner,但会有一点overkill。方法三比较不flexible,当Loss matrix改变是,需要从头算,没有办法使用reject option,没办法使用prior probability compensation,没办法将不同模型整合。Regression的分析步骤与classification类似,不赘述。
回复

使用道具 举报

我的人缘0
facebbook 2019-7-18 13:23:17 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (8)
 
 
0% (0)    👎
Self_Learner 发表于 2019-7-18 13:00
看了第一章的Decision theory, 基于体系的概率或概率分布,依照一定标准,对数据的分类或取值做出预测。inf ...

学习。。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法 - 不要多加空格: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版||一亩三分地

GMT+8, 2019-8-18 17:21

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表