一亩三分地

 找回密码 注册账号

扫描二维码登录本站

BBS
Offer多多
Salarytics
交友
Learn
Who's Hiring?
Visa Tracker
疫情动态
指尖新闻
Instant
客户端
微信公众号
扫码关注公众号
留学申请公众号
扫码关注留学申请公众号
Youtube频道
留学博客
关于我们
查看: 7228|回复: 58
收起左侧

狗家swe在ml application组心得

    [复制链接] |只看干货 |机器学习
我的人缘0

升级   4.71%


分享帖子到朋友圈
hcchen | 显示全部楼层 |阅读模式
本楼: 👍   100% (42)
 
 
0% (0)   👎
全局: 👍   97% (425)
 
 
2% (10)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
发此贴的目的是给大家一点信心,也想把大公司ml应用环境介绍一下。
背景
组是 recommendation的back end, 组员 都是名校phd或者top kaggler。
本人小硕一枚,以前纯swe主要focus on data pipelines/platform的。 机缘巧合来到这个组。
仅限于conventional machine learning。 对于图像啊 nlp啊 不太了解。

下面是我想说的话,mle的bar其实不高, 只要你有兴趣, 有好学的心, 就可以。
  • 肯定会有一段时间ramp up, 我第一年感觉和组员说的不是一种语言。 很多term 和concept 需要理解。 不过只要有概念上的理解就够了, 不需要非常深。
  • ml system 你还是在做infra... 真正的ml model可能是百分之一。 大部分的时间你都在找数据,洗数据, 搭pipelines。 还有剩下的validation 和inference。
  • model的提升对于效果的提升非常小, 数据才是最关键的。 如果有足够好的feature engineering 或者有足够大的sample size, 剩下的活都会很简单。
  • Data analysis 的时间非常多, 基本就是python 和sql 写写。 大部分时间是要intuitionly 理解model的问题或者data的问题。
  • automl会越做越好, 个人感觉以后ml反而是最简单的活。





补充内容 (2020-8-30 04:07):
看了一些回复, 想补充一些事实。 大部分别家的scientist 到了狗家都是swe 的title。 我没有否认phd的重要性(其实只是数学), 真正的ml 组大部分时间都是在解决一个engineering problem

补充内容 (2020-8-30 04:35):
最后再谈谈读phd 与career的关系。 如果你做的领域(带货进厂) 或者你即将做的领域(天赋异禀), 你能解决目前这个org内没人能解决的问题, 你的升职会非常快。 大部分的人career path 由综合能力决定。

补充内容 (2020-8-30 08:34):
并不知道怎么编辑原帖。 有些补充放在后面的楼了

补充内容 (2020-9-2 04:03):
我没有想引战,更没想说博士和深耕没有意义。 我更多想把我知道的现实情况反应给大家。
其次,在多暴露一点信息,我的组是一个core modeling 组下的分支,绝不是边缘组。cover both organic and ads。非常有钱。。

补充内容 (2020-9-2 04:11):
再说一点我的拙见, ml发展到以后很可能会成为cpu/gpu 类似的 开发。 技术难度无限大, 但是很少数人再提升它的性能,大部分人都是在了解如何使用。

评分

参与人数 35大米 +88 收起 理由
gwizard + 2 给你点个赞!
fukan000OELQ + 1 赞一个
clairefig + 2 很有用的信息!
Mark6 + 2 给你点个赞!
whdawn + 10
UncleHenri + 1 赞一个
fantasy887 + 1 欢迎分享你知道的情况,会给更多积分奖励!
12farmers + 1 赞一个
jesshxh + 1 赞一个
mereflora + 1 感谢分享!

查看全部评分

本帖被以下淘专辑推荐:

  • · job|主题: 9, 订阅: 1
我的人缘0

升级   34.29%

greyman 2020-8-29 11:43:45 | 显示全部楼层
本楼: 👍   100% (21)
 
 
0% (0)   👎
全局: 👍   90% (448)
 
 
9% (49)    👎
本帖最后由 greyman 于 2020-8-29 11:45 编辑
gongchen 发表于 2020-8-29 11:34
CV NLP难做的主要原因是什么呢?我看很多大佬反映花了很多时间但是没有成果

核心在于非线性的程度。比如一个无限接近凸函数的东西,还要啥高级数学工作,本科math+solid的编程就好了。

但是一个高维里面遍地是bad optima的model,你如果不上点高级武器,还指望找到好的optima,几乎是不可能的。因此CS的思路是造了CNN resnet (CV) attention bert (NLP)等模型,使得模型极限接近convex来加速优化;math的高级工具是先通过exploration 更大概率落到好optima以后再exploit获得更好的结果。目前来看CS的坑被挖的差不多了,而math里面的工作才刚开始起步。

虽然我没画过推荐系统的模型landscape,但是看这个领域的人learning rate都不带decay的,就知道他们那个model很『凸』,logistic regression和state of the art的prediction都差不了哪里去,也说明了这一点。

评分

参与人数 10大米 +20 收起 理由
ryanmagic + 1 赞一个
whdawn + 6
GibbsEnsemble + 1 给你点个赞!
yanliangwu + 1 赞一个
alpc104 + 2 给你点个赞!
joycevernon + 3 很有用的信息!
更深的蓝BayArea + 2 给你点个赞!
DJ_Novak + 1 赞一个
balalalala + 1 赞一个
gongchen + 2 欢迎来一亩三分地论坛!

查看全部评分

回复

使用道具 举报

我的人缘0

升级   34.29%

greyman 2020-8-29 11:14:13 | 显示全部楼层
本楼: 👍   100% (10)
 
 
0% (0)   👎
全局: 👍   90% (448)
 
 
9% (49)    👎
严格来说,是传统推荐系统不需要很多ML knowledge (logistic regression 实在不行交叉feature deep wide),瓶颈更多是卡在feature和数据上。logistic regression的linear feature就能贡献>95% prediction了,还要啥摩托车...双腿就可以。

兄台可以试试看CV NLP里面简单logistic regression能跑的State-of-the-art的什么位置。

评分

参与人数 3大米 +5 收起 理由
ryanmagic + 1 赞一个
lllbl + 2 给你点个赞!
gongchen + 2 CV NLP难做的主要原因是什么呢?我看很多大佬反映花了很多时间但是没有成果

查看全部评分

回复

使用道具 举报

我的人缘0

升级   4.71%

 楼主| hcchen 2020-8-30 14:00:38 | 显示全部楼层
本楼: 👍   100% (9)
 
 
0% (0)   👎
全局: 👍   97% (425)
 
 
2% (10)    👎
我看楼里有一些专业的讨论, 比如选用哪个optimizer, adam vs adagrad。 decay rate 是多少等等。
其实这一些ml expertise 是非常值得研究的。 我们有整个部门 叫做google brains 就是在把这些ml expertise, automate 然后放进tensorflow 以及一些internal infra。 剩下的部门只要使用就好了。对于我们来说, 只要调用下这个工具就能找到最好的hyperparameter。
现在有一个理念就是 data+ 100x computation >> data + computation + ml expertise. automation is the king.
无意冒犯。 我发帖的目的也是为了鼓励大家。对于那些ml研究很深的同学, 非常欢迎来google brains。

评分

参与人数 1大米 +1 收起 理由
ryanmagic + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0

升级   36.71%

uuisafresh 2020-8-29 11:28:37 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   93% (1201)
 
 
6% (79)    👎
说实话那没什么价值啊好像,都是体力活,前几年抢破头都想去做ML
回复

使用道具 举报

我的人缘0

升级   53.86%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   96% (523)
 
 
3% (20)    👎
greyman 发表于 2020-08-29 11:14:13
严格来说,是传统推荐系统不需要很多ML knowledge (logistic regression 实在不行交叉feature deep wide),瓶颈更多是卡在feature和数据上。logis
CV NLP难做的主要原因是什么呢?我看很多大佬反映花了很多时间但是没有成果
回复

使用道具 举报

我的人缘0

升级   53.86%

gongchen 2020-8-29 13:50:12 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   96% (523)
 
 
3% (20)    👎
greyman 发表于 2020-8-29 11:43
核心在于非线性的程度。比如一个无限接近凸函数的东西,还要啥高级数学工作,本科math+solid的编程就好了 ...

本科生在大厂做了几年遇到瓶颈了

看了层主之前的帖子,过了一年了,楼主还建议读博来突破瓶颈么?
回复

使用道具 举报

我的人缘0

升级   34.29%

greyman 2020-8-29 19:57:28 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   90% (448)
 
 
9% (49)    👎
gongchen 发表于 2020-8-29 13:50
本科生在大厂做了几年遇到瓶颈了

看了层主之前的帖子,过了一年了,楼主还建议读博来突破瓶颈么?

这个东西因人而异,quit读博最大的代价是少赚太多钱了....所以读博的优势,可能40岁以前都看不出来。

你要不缺钱,且有明确的研究方向,且那个研究方向有10年以上的发展前途,值得读博。否则还是安稳赚钱的好。瓶颈啥的MBA凑也可以。
回复

使用道具 举报

我的人缘0

升级   57.57%

Jing666 2020-8-29 23:38:25 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   91% (302)
 
 
8% (27)    👎
本帖最后由 Jing666 于 2020-8-29 23:43 编辑

感谢LZ分享!我本科做过几年NLP相关的DL research和intern,现在本科毕业在做SWE拧螺丝(在一个service team写backend business logic,直接面向客户的那种,和ML半毛钱关系都没有),但依然一直对ML +system蠢蠢欲动。。。看了LZ的心得想问LZ,你觉得自己做的这些pipeline infras的东西impact怎么样?自己会很有成就感吗?(因为service team的话基本就是几个人负责一个product/feature,写完了直接deploy给客户用,比较容易有成就感)这么问是因为,之前实习的时候也用过别人写的infras,感觉虽然会对researcher很有帮助,但是项目本身而言、如果非常多人在做一个东西的话个人貌似会比较难出大的impact。(我也是狗家,LZ不介意的话我可以私信一个联系方式么,还挺好奇、想和LZ多聊聊ML infras这方面的情况的)

评分

参与人数 1大米 +10 收起 理由
hawking + 10

查看全部评分

回复

使用道具 举报

我的人缘0

升级   19%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   97% (1678)
 
 
2% (44)    👎
gongchen 发表于 2020-08-28 22:50:12
本科生在大厂做了几年遇到瓶颈了

看了层主之前的帖子,过了一年了,楼主还建议读博来突破瓶颈么?
想问一下你说的瓶颈指什么?
回复

使用道具 举报

我的人缘0

升级   17%

本楼: 👍   100% (2)
 
 
0% (0)   👎
全局: 👍   98% (534)
 
 
1% (9)    👎
greyman 发表于 2020-08-28 20:43:45
核心在于非线性的程度。比如一个无限接近凸函数的东西,还要啥高级数学工作,本科math+solid的编程就好了。

但是一个高维里面遍地是bad optima的model,你如果不上点高级武器,还指
不懂就问,为什么resnet跟bert的作用是使得模型极限接近convex?在我的理解中deep model就没有convex的,并且是极度nonconvex。很想听听数学系的大佬的解释。

评分

参与人数 1大米 +1 收起 理由
tonyke930 + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://pay.1point3acres.com/tools/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|||一亩三分地

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

Some icons made by Freepik from flaticon.com

快速回复 返回顶部 返回列表