登录
注册
关注
TOP

查看: 21249|回复: 15
收起左侧

谈谈机器学习(Machine Learning)大家(转)

    [复制链接] |只看干货 |机器学习

升级   11%


分享帖子到朋友圈
zz10fall | 显示全部楼层 |阅读模式
本楼: 👍   100% (5)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本帖最后由 zz10fall 于 2012-3-27 11:59 编辑

应该是有段时间的贴了,andrew ng已经是associate了,一直搞不清楚他到底是哪国人...John lafferty也离开cmu去 u chicago了



闲着无事,想写点一些我所了解的machine learning大家。由于学识浅薄,见识有限,并且仅局限于某些领域,一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知,所以不对的地方大家仅当一笑。
  
  Machine Learning 大家(1):M. I. Jordan
http://www.cs.berkeley.edu/~jordan/
  
在我的眼里,M Jordan无疑是武林中的泰山北斗。他师出MIT,现在在berkeley坐镇一方,在附近的两所名校(加stanford)中都可以说无出其右者,stanford的Daphne Koller虽然也声名遐迩,但是和Jordan比还是有一段距离。
  
  Jordan身兼stat和cs两个系的教授,从他身上可以看出Stat和ML的融合。
  
Jordan 最先专注于mixtures of experts,并迅速奠定了自己的地位,我们哈尔滨工业大学的校友徐雷跟他做博后期间,也在这个方向上沾光不少。Jordan和他的弟子在很多方面作出了开创性的成果,如spectral clustering, Graphical model和nonparametric Bayesian。现在后两者在ML领域是非常炙手可热的两个方向,可以说很大程度上是Jordan的lab一手推动的。
  
  更难能可贵的是, Jordan不仅自己武艺高强,并且揽钱有法,教育有方,手下门徒众多且很多人成了大器,隐然成为江湖大帮派。他的弟子中有10多人任教授,个人认为他现在的弟子中最出色的是stanford的Andrew Ng,不过由于资历原因,现在还是assistant professor,不过成为大教授指日可待;另外Tommi Jaakkola和David Blei也非常厉害,其中Tommi Jaakkola在mit任教而David Blei在cmu做博后,数次获得NIPS最佳论文奖,把SVM的最大间隔方法和Markov network的structure结构结合起来,赫赫有名。还有一个博后是来自于toronto的Yee Whye Teh,非常不错,有幸跟他打过几次交道,人非常nice。另外还有一个博后居然在做生物信息方面的东西,看来jordan在这方面也捞了钱。这方面他有一个中国学生Eric P. Xing(清华大学校友)http://www.cs.cmu.edu/~epxing/,现在在cmu做assistant professor。
  
  总的说来,我觉得 Jordan现在做的主要还是graphical model和Bayesian learning,他去年写了一本关于graphical model的书,今年由mit press出版,应该是这个领域里程碑式的著作。3月份曾经有人答应给我一本打印本看看,因为Jordan不让他传播电子版,但后来好像没放在心上(可见美国人也不是很守信的),人不熟我也不好意思问着要,可以说是一大遗憾. 另外发现一个有趣的现象就是Jordan对hierarchical情有独钟,相当多的文章都是关于hierarchical的,所以能 hierarchical大家赶快hierarchical,否则就让他给抢了。
  
  用我朋友话说看jordan牛不牛,看他主页下面的Past students and postdocs就知道了。
  
  Machine Learning大家(2):D. Koller
  
D. Koller是1999年美国青年科学家总统奖(PECASE)得主,IJCAI 2001 Computers and Thought Award(IJCAI计算机与思维奖,这是国际人工智能界35岁以下青年学者的最高奖)得主,2004 World Technology Award得主。
  
  最先知道D koller是因为她得了一个大奖,2001年IJCAI计算机与思维奖。Koller因她在概率推理的理论和实践、机器学习、计算博弈论等领域的重要贡献,成为继Terry Winograd、David Marr、Tom Mitchell、Rodney Brooks等人之后的第18位获奖者。说起这个奖挺有意思的,IJCAI终身成就奖(IJCAI Award for Research Excellence),是国际人工智能界的最高荣誉; IJCAI计算机与思维奖是国际人工智能界35岁以下青年学者的最高荣誉。早期AI研究将推理置于至高无上的地位; 但是1991年牛人Rodney Brooks对推理全面否定,指出机器只能独立学习而得到了IJCAI计算机与思维奖; 但是koller却因提出了Probabilistic Relational Models 而证明机器可以推理论知而又得到了这个奖,可见世事无绝对,科学有轮回。
  
  D koller的Probabilistic Relational Models在nips和icml等各种牛会上活跃了相当长的一段时间,并且至少在实验室里证明了它在信息搜索上的价值,这也导致了她的很多学生进入了 google。虽然进入google可能没有在牛校当faculty名声响亮,但要知道google的很多员工现在可都是百万富翁,在全美大肆买房买车的主。
  
  Koller的研究主要都集中在probabilistic graphical model,如Bayesian网络,但这玩意我没有接触过,我只看过几篇他们的markov network的文章,但看了也就看了,一点想法都没有,这滩水有点深,不是我这种非科班出身的能趟的,并且感觉难以应用到我现在这个领域中。
  
Koller 才从教10年,所以学生还没有涌现出太多的牛人,这也是她不能跟Jordan比拟的地方,并且由于在stanford的关系,很多学生直接去硅谷赚大钱去了,而没有在学术界开江湖大帮派的影响,但在stanford这可能太难以办到,因为金钱的诱惑实在太大了。不过Koller的一个学生我非常崇拜,叫 Ben Taskar,就是我在(1)中所提到的Jordan的博后,是好几个牛会的最佳论文奖,他把SVM的最大间隔方法和Markov network结合起来,可以说是对structure data处理的一种标准工具,也把最大间隔方法带入了一个新的热潮,近几年很多牛会都有这样的workshop。 我最开始上Ben Taskar的在stanford的个人网页时,正赶上他刚毕业,他的顶上有这么一句话:流言变成了现实,我终于毕业了!可见Koller是很变态的,把自己的学生关得这么郁闷,这恐怕也是大多数女faculty的通病吧,并且估计还非常的push!
  
  Machine learning 大家(3):J. D. Lafferty
  
大家都知道NIPS和ICML向来都是由大大小小的山头所割据,而John Lafferty无疑是里面相当高的一座高山,这一点可从他的publication list里的NIPS和ICML数目得到明证。虽然江湖传说计算机重镇CMU现在在走向衰落,但这无碍Lafferty拥有越来越大的影响力,翻开AI兵器谱排名第一的journal of machine learning research的很多文章,我们都能发现author或者editor中赫然有Lafferty的名字。
  
  Lafferty给人留下的最大的印象似乎是他2001年的conditional random fields,这篇文章后来被疯狂引用,广泛地应用在语言和图像处理,并随之出现了很多的变体,如Kumar的discriminative random fields等。虽然大家都知道discriminative learning好,但很久没有找到好的discriminative方法去处理这些具有丰富的contextual inxxxxation的数据,直到Lafferty的出现。
  
  而现在Lafferty做的东西好像很杂,semi-supervised learning, kernel learning,graphical models甚至manifold learning都有涉及,可能就是像武侠里一样只要学会了九阳神功,那么其它的武功就可以一窥而知其精髓了。这里面我最喜欢的是semi- supervised learning,因为随着要处理的数据越来越多,进行全部label过于困难,而完全unsupervised的方法又让人不太放心,在这种情况下 semi-supervised learning就成了最好的。这没有一个比较清晰的认识,不过这也给了江湖后辈成名的可乘之机。到现在为止,我觉得cmu的semi- supervised是做得最好的,以前是KAMAL NIGAM做了开创性的工作,而现在Lafferty和他的弟子作出了很多总结和创新。
  
Lafferty 的弟子好像不是很多,并且好像都不是很有名。不过今年毕业了一个中国人,Xiaojin Zhu(上海交通大学校友),就是做semi-supervised的那个人,现在在wisconsin-madison做assistant professor。他做了迄今为止最全面的Semi-supervised learning literature survey,大家可以从他的个人主页中找到。这人看着很憨厚,估计是很好的陶瓷对象。另外我在(1)中所说的Jordan的牛弟子D Blei今年也投奔Lafferty做博后,就足见Lafferty的牛了。
  
  Lafferty做NLP是很好的,著名的Link Grammar Parser还有很多别的应用。其中language model在IR中应用,这方面他的另一个中国学生ChengXiang Zhai(南京大学校友,2004年美国青年科学家总统奖(PECASE)得主),现在在uiuc做assistant professor。
  
  Machine learning 大家(4):Peter L. Bartlett
  
鄙人浅薄之见,Jordan比起同在berkeley的Peter Bartlett还是要差一个层次。Bartlett主要的成就都是在learning theory方面,也就是ML最本质的东西。他的几篇开创性理论分析的论文,当然还有他的书Neural Network Learning: Theoretical Foundations。
  
  UC Berkeley的统计系在强手如林的北美高校中一直是top3,这就足以证明其肯定是群星荟萃,而其中,Peter L. Bartlett是相当亮的一颗星。关于他的研究,我想可以从他的一本书里得到答案:Neural Network Learning: Theoretical Foundations。也就是说,他主要做的是Theoretical Foundations。基础理论虽然没有一些直接可面向应用的算法那样引人注目,但对科学的发展实际上起着更大的作用。试想vapnik要不是在VC维的理论上辛苦了这么多年,怎么可能有SVM的问世。不过阳春白雪固是高雅,但大多数人只能听懂下里巴人,所以Bartlett的文章大多只能在做理论的那个圈子里产生影响,而不能为大多数人所广泛引用。
  
  Bartlett在最近两年做了大量的Large margin classifiers方面的工作,如其convergence rate和generalization bound等。并且很多是与jordan合作,足见两人的工作有很多相通之处。不过我发现Bartlett的大多数文章都是自己为第一作者,估计是在教育上存在问题吧,没带出特别牛的学生出来。
  
  Bartlett的个人主页的talk里有很多值得一看的slides,如Large Margin Classifiers: Convexity and Classification;Large Margin Methods for Structured Classification: Exponentiated Gradient Algorithms。大家有兴趣的话可以去下来看看。
  
Machine learning 大家(5): Michael Collins
  
  Michael Collins (http://people.csail.mit.edu/mcollins/
自然语言处理(NLP)江湖的第一高人。出身Upenn,靠一身叫做Collins Parser的武功在江湖上展露头脚。当然除了资质好之外,其出身也帮了不少忙。早年一个叫做Mitchell P. Marcus的师傅传授了他一本葵花宝典-Penn Treebank。从此,Collins整日沉迷于此,终于练成盖世神功。
  
学成之后,Collins告别师傅开始闯荡江湖,投入了一个叫AT&T Labs Research的帮会,并有幸结识了Robert Schapire、Yoram Singer等众多高手。大家不要小瞧这个叫AT&T Labs Research的帮会,如果谁没有听过它的大名总该知道它的同父异母的兄弟Bell Labs吧。
  
  言归正传,话说 Collins在这里度过了3年快乐的时光。其间也奠定了其NLP江湖老大的地位。并且练就了Discriminative Reranking, Convolution Kernels,Discriminative Training Methods for Hidden Markov Models等多种绝技。然而,世事难料,怎奈由于帮会经营不善,这帮大牛又不会为帮会拼杀,终于被一脚踢开,大家如鸟兽散了。Schapire去了 Princeton, Singer 也回老家以色列了。Collins来到了MIT,成为了武林第一大帮的六袋长老,并教授一门叫做的Machine Learning Approaches for NLP
(http://www.ai.mit.edu/courses/6.891-nlp/ 的功夫。虽然这一地位与其功力极不相符,但是这并没有打消Collins的积极性,通过其刻苦打拼,终于得到了一个叫Sloan Research Fellow的头衔,并于今年7月,光荣的升任7袋Associate Professor。
  
  在其下山短短7年时间内,Collins共获得了4次世界级武道大会冠军(EMNLP2002, 2004, UAI2004, 2005)。相信年轻的他,总有一天会一统丐帮,甚至整个江湖。
  
  看过Collins和别人合作的一篇文章,用conditional random fields 做object recogntion。还这么年轻,admire to death!


Machine learning 大家(6): Dan Roth
统计NLP领域的众多学者后,我得出了一个惊人的结论,就是叫Daniel的牛人特别多:
大到MT领域成名已久的Prof. Dan Melamed,小到Stanford刚刚毕业的Dan Klein,中
间又有Dan jurafsky这种牛魔王,甚至Michael Collins的师弟Dan Bikel
(IBM Research),ISI的Dan Marcu,获得过无数次TREC QA评比冠军的
Prof. Dan Moldovan (UTexas Dallas),UC Berkeley毕业的Dan Gildea
(U Rochester)。但是,在众多的Dan中,我最崇拜的还是UIUC的Associate
Professor,其Cognitive Computation Group的头头Dan Roth。

这位老兄也是极其年轻的,Harvard博士毕业整十年,带领其团队撑起了UIUC Machine Learning以及NLP领域的一片灿烂天空。其领导开发的SNoW工具可谓是一把绝世好剑,基本达到了"又想马儿跑,又想马儿不吃草"的境界,在不损失分类精度的条件下,学习和预测速度空前。什么?你不知道SNoW?它和白雪公主有什么关系?看来我也得学学"超女"的粉丝们,来一个扫盲了: SNoW是Sparse Network of Winnows的简称,其中实现了Winnow算法,但是记住Sparse Network才是其重点,正是因为有了这块玄铁,SNoW之剑才会如此锋利。

近年来Roth也赶时髦,把触角伸向了Structured Data学习领域,但与其他人在学习的
时候就试图加入结构化信息(典型的如CRF)不同,Roth主张在预测的最后阶段加入约束
进行推理,这可以使的学习效率极大的提高,同时在某些应用上,还取得了更好的结果。
还有就是什么Kernel学习,估计他也是学生太多,安排不下了,所以只好开疆扩土。

Harvard出身的Roth,理论功底也极其深厚,好多涉及统计学习理论的工作就不是我这种学工科的人关心的了。

最后广播一条小道消息,Roth正在招Post-Dor,感兴趣的可以联系一下他,呵呵

:兼谈留学选校

以下粗略列出自己选校和看文献时候了解到的几个上文中未出现的牛人,
以及自己在力申(=也许各位可以用来做backup)的几个学校,
但愿对喜欢ML并准备出国读这个的同学们有参考价值,如有误导之处请大家指正。

:I)Hinton系,分布在美加欧

U Toronto的machine learning组:阵容蛮华丽的,G Hinton, Sam Roweis这些人都在这里
;Z. Ghahramani, Y Lecun和Y W Teh都是这里博后出来的;因为Hinton的缘故比较偏NN,
似乎近来做deep learning,谁有福去今年NIPS可以聆听hinton大人的tutorial了;deadl
ine很早,看似officially不鼓励套磁。

UCL Gatsby unit:主管是P. Dayan,Gatsby其实是Hinton在UCL时候创立的。Z. Ghahram
ani没有tenure的时候就在这里做过Reader,现在Y W Teh也加盟了;后者是做Dirichlet
Process的。据说Gatsby自己就有针对国际学生的全额奖学金。

Cam: 有两拨人
工程系: Z. Ghahramani和Wolpert掌门,Carl Rasmussen新加盟,后者是做Gaussian Pr
ocess的。另外前两者都是Jordan的学生,Y W Teh也是……Hinton系的人和Jordan系交集
很大啊……
卡文迪许:D. Mackay,主攻NN和GP,itila那本书写的很好。
Cam的奖学金比较烦,如果能陶瓷搞到DHPA就好过了。
另外,MS在cam有个research center,里面有Bishop大人还有Andrew Blake。招实习的。


爱丁堡: C Williams,似乎也是Hinton学生,和Rasmussen写GPML的,C Bishop在这里也挂
名了。另据小道消息,UoE的DHPA几年来都被力学方面的学生占了,所以不知道读ml会不会
要想办法拼ORS奖学金。

NYU Courant:Y Lecun,hinton学生,似乎在AT&T还是NEC做过,关键词:Engergy-based
Models, NN,lush, djvu

:II)reinforcement learning
有这么几个人似乎还比较active
MIT CSAIL: LPK
Stanford: Ng
UMass: Barto,McCallum,btw jordan曾是这里的postdoc
UMich: Singh
Rutger: Littman
Alberta: Sutton以及手下一批人

:III)CS排名不那么引人注意,但似乎老师还不错的学校:
I里面的Toronto, UoE,II里面的umass, alberta可以算这种类型吧?
Rutger也不错的,但是偏偏要CS sub,唉……
另外,
UBC:有K. Murphy(S. Russell的学生)和N. de Freitas,做Dynamic Bayesian和Monte
Carlo,structural learning等等
UCI:有一群bayesian,还有P Smyth,ex-JPLer
TTI-C:新学校,tti-c.org,不好评价其前途如何,权作备份offer了

评分

参与人数 7大米 +114 萝卜 +4 收起 理由
rachel_sunrui + 1 欢迎来介绍你知道的情况
perfectionming + 3 欢迎来介绍你知道的情况
zzwcsong + 10 感谢分享!
jby1797 + 20
vancexu + 5 牛人强帖,科研视野
chentc + 50 + 3
wwrechard + 25 + 1 这么好的帖居然没人顶!

查看全部评分

本帖被以下淘专辑推荐:

升级   25.88%

wwrechard 2012-3-28 22:48:41 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (415)
 
 
1% (7)    👎
Lafferty 跑去U chicago的统计系了,于是CMU的stat又失去了一个申请的理由。其实我一直觉得stat里的bayesian都能算machine learning领域的工作,所以像Duke的stat dept.也可以算做ML吧,系里面的某些人比如David Dunson做Dirichlet process这些东西在NLP和其他exciting领域都有挺多用途的~
回复

使用道具 举报

升级   25.88%

wwrechard 2012-3-28 22:57:23 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (415)
 
 
1% (7)    👎
本帖最后由 wwrechard 于 2012-3-28 22:58 编辑

回复 1# zz10fall

另外,看到你之前的帖子里提到kernel estimate和nonparametric bayesian,感觉你的说法和我的理解不太一样。nonparametric bayesian和nonparametric statistics做的东西很不一样,实际上NP并不是nonparametric的,而其实是参数的,所以准确的翻译应该是变参数bayesian,这和非参统计很不一样。而且NP的强大之处在于,除了估计参数外还可以自动估计参数的个数,这是之前很多方法做不到的。比如做cluster,最早的方法都是必须指定分类数目的,而之后改进的可以自动确定数目的方法本质上就是给定一个评价函数来给每种聚类打分,其实非常主观&不科学。但是NP可以自动确定分类数,而且背后的数学本质非常自然,这也是DP现在很火的原因之一。
回复

使用道具 举报

升级   11%

 楼主| zz10fall 2012-3-28 23:26:30 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
回复 3# wwrechard
实际上非参数的叫法本来就是不规范的,任何非参数问题实际只是infinite dimension的问题,nonparametric bayes虽然有些参数,但总体而言是把函数本身看做参数的,这和nonparametric statistics的做法是一样的。至于强大不强大,真的就是各家之言了,我当时的帖子是我第一次课上见到nonparametric bayesian后发的,随便吐槽而已,当时也只讲完了用它做density estimation。而且我学nb上的是larry wasserman的课,他自己而言是不太喜欢nb的,although很多时候它能给出好结果。nb在确定clustering number这点确实不错
回复

使用道具 举报

maimaiherbert 2012-3-28 23:31:22 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (52)
 
 
0% (0)    👎
回复 3# wwrechard


    ”非参“至今都没太确切的定义,感觉。

数理统计课本里和非参统计讲义里就有好几中关于“非参数”的描述咩~
回复

使用道具 举报

升级   25.88%

wwrechard 2012-3-29 00:23:58 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (415)
 
 
1% (7)    👎
本帖最后由 wwrechard 于 2012-3-29 00:25 编辑

回复 4# zz10fall

我不清楚nb估计density是怎么做的,不过从其他方面看我觉得nb更像是半参里面假设的submodel这样的处理,真实模型总归还是一个有限参数的。我并不清楚参数的个数,那么就干脆假设无穷维,让data自己来选,只要我的真实的submodel总是被包含在内就可以的。这和kernel的想法还是不太一样,但是和样条方法很相似,也是把函数参数化来做。
回复

使用道具 举报

升级   25.88%

wwrechard 2012-3-29 00:24:38 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (415)
 
 
1% (7)    👎
回复 5# maimaiherbert

这个定义没什么意义吧。。。= =
回复

使用道具 举报

升级   11%

 楼主| zz10fall 2012-3-29 02:51:29 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
回复 6# wwrechard [/b
我没说nb和kernel estimate一样,这俩没啥关系...只是说在对待nonparametric这个词的意义上,nb和传统指的nonparametric stat都是infinite dimension parameters的含义。至于kernel,kernel和spline都是nonparametric regression中常用的方法,而且是asymptotically equivalent的,都是linear smoother而已,不过搞functional data的人一般更喜欢spline
回复

使用道具 举报

maimaiherbert 2012-3-29 09:19:38 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (52)
 
 
0% (0)    👎
回复 7# wwrechard


    en , i think so....

but sometimes stats claim that their methods are Nonparametric, it takes time to understand it....(because there is no accurate definition regarding NP...)

( personal view only ...)
回复

使用道具 举报

升级   1.5%

infowalker 2012-7-21 16:38:05 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (6)
 
 
0% (0)    👎
感觉 ML 都点远呀 得找时间找本书看看
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://tools.1point3acres.com/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

论坛导航
快速回复 返回顶部 返回列表