一亩三分地

 找回密码 注册账号

扫描二维码登录本站

BBS
指尖新闻
Offer多多
Salarytics
Learn
Who's Hiring?
疫情动态
Instant
客户端
微信公众号
扫码关注公众号
留学申请公众号
扫码关注留学申请公众号
Youtube频道
留学博客
关于我们
查看: 614|回复: 7
收起左侧

贝叶斯graph 概率模型

[复制链接] |试试Instant~ |机器学习
我的人缘0

分享帖子到朋友圈
lzchu1992 | 显示全部楼层 |阅读模式
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   81% (72)
 
 
18% (16)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
最近看了看ctr预估方向的paper,都是工业界的应用论文非科研哈。
有个不成熟的问题想讨论一下,近几年感觉ctr预测都是无脑deep,各种嵌入做feature,然后几层神经网络就开始预测起来了。
但是看了看twitter和MS之前讨论ctr的问题,感觉有一些还是在用传统的贝叶斯来做。比如factor graph,prob graph。

请问一下为什么近几年放弃了传统贝叶斯模型而开始大面积拥抱deep了呢?是因为贝叶斯的assumption太重了吗?

求大佬解读!跪谢!并加米。

评分

参与人数 1大米 +2 收起 理由
lyq123 + 2 给你点个赞!

查看全部评分

我的人缘0
greyman 2020-5-22 09:35:02 | 显示全部楼层
本楼: 👍   100% (11)
 
 
0% (0)   👎
全局: 👍   87% (330)
 
 
12% (49)    👎
本帖最后由 greyman 于 2020-5-22 10:07 编辑

非大佬,但本人博士是做贝叶斯相关,非概率图模型。

传统Bayesian火的一个重要原因是MCMC和衍生的变分法。记住,这里是算法,是用来求解模型的。和模型还是有本质区别。传统统计计算量不大,获得均值或者mode不是难点。这时候MCMC可以以少量代价获取uncertainty。我们不只知道结果是啥,还知道结果置信区间岂不美哉。想象一下:一个DNN模型能准确的知道prediction的置信程度,而不是靠softmax随便一个0.6说A就是A。

下面说说DNN。大家都知道NP hard问题,DNN是非凸的,高维情况下计算量指数增加(这个指数增长是最坏情)。所以别说uncertainty了,连一个好的optimum我们都难guarantee。

现在回到贝叶斯和MCMC。uncertainty在当今计算条件是很难了。但是SGD和MCMC的关系是啥?可以说SGD本质就是MCMC (Levy process离散化,gradient drift + heavy tail noise)。所以贝叶斯思想就是用在DNN里面了,只是MCMC不再是描述不确定性,而是去做优化了。带噪音的优化算法可以牺牲速度去逃脱坏的局部最优解,理论保证的算法多大概率逃脱什么样的local trap。而传统的gradient descent 拟牛顿算法,或者SVM之类的,优化对只是guarantee跑一个local optimum去,所以理论上结果可以任意差。但是基于SGD思想的随机优化或者MCMC算法,有一系列文章分析如何调整学习率来增加击中全局最优的概率。哪个好那个坏你应该清楚了。

如果说SGD是MCMC算法的一种,那么很多改进MCMC的技巧也可以用来改进SGD了,在ICML NeurIPS里面这种文章很多的。但是....很多math都能证明非凸收敛rate的人还愿意做CTR调参或者找feature的侠客?这也是为啥ICML NIPS推荐系统的文章很少。而KDD CIKM, IJCAI这种9页的实验短文很多了。结论是完全不是一个风格体系的。你去看推荐系统的文章基本只能学到如何搭积木,跑完实验报分数,然后用intuitive的思维讲讲为啥work。不过凡事一intuitive,谁也可以指点江山了。

贝叶斯最大的问题是,对数学和编程要求都高。擅长两者的人,一般比较少。



评分

参与人数 6大米 +11 收起 理由
zero_you + 3 给你点个赞!
Javic + 3 给你点个赞!
lyq123 + 2 给你点个赞!
novavistamn + 1 欢迎分享你知道的情况,会给更多积分奖励!
lzchu1992 + 1 赞一个
拥抱广阔世界 + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0
greyman 2020-5-22 09:37:16 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   87% (330)
 
 
12% (49)    👎
CTR 预估都是工程嘛。这个feature更重要,也就是选model了。线性的model没啥说的,谁的好feature越多谁NB。非线性的DNN求解的话,数学不好做出来的东西很民科。
回复

使用道具 举报

我的人缘0
咿呀咿呀哟 2020-5-22 08:46:13 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   98% (173)
 
 
1% (3)    👎
应该是deep model的表达能力比较好,近10年趋势大概lr -> fm/mf -> tree+lr -> wide deep -> deepfm -> deep cross ... 逐步增加表达能力和feature interaction
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   92% (2322)
 
 
7% (177)    👎
我觉得不是,而是Bayesian比纯粹的deep复杂多了好多人学不会😂当然,在各种GPU出来之前Bayesian计算量大,所以大多就是data point少的时候用用,data一多计算量就蹭蹭蹭的上去了,然而如果用deep learning这种就是multiple layer logistics能出来差不多效果,为啥非得要sample出一堆堆的distribution呢,好多问题也就是求个mean嘛。当然我个人觉得Bayesian非常elegant,也更加全面,logistics也就是其special case之一而已
回复

使用道具 举报

我的人缘0
uuisafresh 2020-5-23 04:50:23 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   91% (783)
 
 
8% (72)    👎
个人浅见,传统模型对feature的要求更高,更精,要频繁feature engineering,domain knowledge也有要求。deep learning随机优化能更好/模糊地模拟大规模数据。类似问题,为什么NLP的syntax/lexical analysis 渐渐没有DL模型火了
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   81% (72)
 
 
18% (16)    👎
uuisafresh 发表于 2020/05/23 04:50:23
个人浅见,传统模型对feature的要求更高,更精,要频繁feature engineering,domain know...
是呀,感觉比较经典的nlp模型比如lda都是基于概率图模型呀。最近几年好像开始无脑bert了?
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   92% (2322)
 
 
7% (177)    👎
lzchu1992 发表于 2020/05/23 05:14:34
是呀,感觉比较经典的nlp模型比如lda都是基于概率图模型呀。最近几年好像开始无脑bert了?
Bert其实就相当于帮你做好了初始的feature generation了,要知道所有NLP problem用的都是同一个data set (English language)里面的sub data set ,所以Bert拿Wikipedia还有book corpus来做pre training, 就相当于帮你从大的data set里面把feature都generate一些了,剩下的按照你自己的sub data set 的特定词汇来做小修小补即可,但要是那些data都完全不一样的,就不容易用这种所谓的transfer learning了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://pay.1point3acres.com/tools/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|||一亩三分地

GMT+8, 2020-6-3 23:55

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表