一亩三分地

 找回密码 注册账号

扫描二维码登录本站

BBS
Offer多多
Salarytics
交友
Learn
Who's Hiring?
Visa Tracker
疫情动态
指尖新闻
Instant
客户端
微信公众号
扫码关注公众号
留学申请公众号
扫码关注留学申请公众号
Youtube频道
留学博客
关于我们
查看: 2634|回复: 20
收起左侧

机器学习---面试笔记,part 1(全都是干货,有经验才能看懂)求加米

  [复制链接] |只看干货 |机器学习
我的人缘0

升级   9.43%


分享帖子到朋友圈
本楼: 👍   100% (7)
 
 
0% (0)   👎
全局: 👍   98% (120)
 
 
1% (2)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本帖最后由 anderson1234 于 2020-9-11 03:18 编辑

为了加米看面经,掏家底儿了。 都是Google, Amazon, MS,FB工程师们的讨论笔记。
求加精,  加米


很多公司需要feature engineering,

Overfitting可能来自三个方面:一个是来自Model的,一个是来自Data的,一个是对data的split不合适。
比如Training Set有时序的时候,split data沿着时间方向,就有可能出现overfitting,Data没有Split干净, 在学习的时候已经把Data包含进来了,
Data少会导致Overfitting , Noise多
Random forest比较容易overfitting;简单regression容易underfitting
Predict 某台机器什么时候坏,按时序分;predict 其他机器什么时候坏, 按照机器Split
如果按时序分,Model好坏取决于:新的机器&旧的机器的distribution是不是一样
If not:
1.  按机器分好
2. Normalization – 把两个不同的distribution做成相同的

使用Regression
ROC三条线:Training, CrossValidation, testing
有些时候,实际中Feature selection保证在300~500之间
实际中真正关心的是Generalization的power怎样

做case时,先用简单model做一下,看看效果,再上复杂model  
Linear是一维, tree没有回路, Neural Network已经是网络
Tree没有feedback回去

Descriminative vs generative models
Joint probability vs conditional probability

有些结果Too good to be true

更复杂的model 使用更复杂的参数

AIC BIC 复杂度概念
Degree of freedom
L1, L2在面试时一定会被问
the Curse of Dimensionality 维度灾难
指数级增长
维度越低越容易estimate
  
Maximum likelihood estimation 与 overfitting
MLE is for Parameter Estimation
MLE用于做Parameter Estimation, 可能Overfitting, 比如linear regression

MLE和LinearRegression中cost function的关系 – in Chapter 3

[Q]: 1.5.5 Cost function是用来干什么的
衡量Fit得好不好
Penalty vs Cost Function
Cost Function包含Penalty Function

[InterviewQs]:
为什么Normal Equation是精确的最优解?
对称轴

当你去选择cost function或者error function的时候,MSE & MAE什么时候选择哪一个?优劣在哪?
A: 取决于Outlier偏离点
[课后]MAE vs MSE  - https://www.quora.com/What-is-the-difference-between-squared-error-and-absolute-error

从一个圆里面Randomly取点,每个点被取的概率一样,怎么做?
转成极坐标 [怎么Randomly选半径r] 密度概率
F(r) = u

[Q] MAE, MSE
MAE = sum(|y- y_predicted|)/N
MSE = sum((y-y_predicted)^2)/N


Bagging:
https://en.wikipedia.org/wiki/Booststrap_aggregating


[Q]有没有什么model是可以没有overfitting?
[飞飞] Nearest Neighborhood

[Q]In [0, 1], to generate two random numbers, the expectation of the smaller one?
[课后]: http://www.vartang.com/2013/03/points-on-the-unit-interval/

留给以后的问题:
Linear regression和logistic regression推导
Bagging and boosting

评分

参与人数 38大米 +49 收起 理由
FinalLi + 2 给你点个赞!
Jancy0605 + 1 很有用的信息!
progfun + 1 给你点个赞!
zhwl2117 + 1 很有用的信息!
nhlijiaming + 1 给你点个赞!
lyh6ep + 2 很有用的信息!
低调搁浅 + 2 谢谢
yvenley + 1 很有用的信息!
佚名666 + 3 很有用的信息!
andrew69 + 1 很有用的信息!

查看全部评分

本帖被以下淘专辑推荐:

  • · job|主题: 9, 订阅: 1
我的人缘0

升级   14.57%

kazumi 2020-10-4 08:30:29 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (70)
 
 
0% (0)    👎
比如Training Set有时序的时候,split data沿着时间方向,就有可能出现overfitting,

这个大佬的观点对吗?我看了google的文章https://developers.google.com/ma ... g-splitting/example 似乎应该按照时序split才更generalize

评分

参与人数 1大米 +1 收起 理由
三除米甫 + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘0

升级   9.43%

 楼主| anderson1234 2020-9-11 08:25:36 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (120)
 
 
1% (2)    👎
多谢各位。分享个今天的面试经验。 MLE的

如何做feature selection
如果有2个correlated feature,  对PCA之后会有什么影响。   (总体而言,我这个面试官不太有经验。因此这道题,我是理解错了的)

random forest 一系列相关内容  (PS, 实际项目中,random forest还挺常用的,因此必须需要学会)

回复

使用道具 举报

我的人缘0

升级   26%

FW0111 2020-9-11 11:42:45 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   0% (0)
 
 
0% (0)    👎
想问下楼主是ms还是phd?谢谢
回复

使用道具 举报

我的人缘0

升级   9.43%

 楼主| anderson1234 2020-9-11 22:38:13 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (120)
 
 
1% (2)    👎
FW0111 发表于 2020-9-11 11:42
想问下楼主是ms还是phd?谢谢

phd. 然后在一个大厂工作了4年了。 混的
回复

使用道具 举报

头像被屏蔽
我的人缘0
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

我的人缘0

升级   5.57%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   92% (862)
 
 
7% (70)    👎
收藏点赞加米三连,我真的好喜欢机器学习板块里,不断有小伙伴输出硬核干货。
互相学习,互相进步,互相成就,我都想喊口号了,手动比心!<3
回复

使用道具 举报

我的人缘0

升级   97%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (27)
 
 
0% (0)    👎
有用!感谢!已加米。持续关注后续part

评分

参与人数 1大米 +1 收起 理由
小何 + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0

升级   56%

redeye1 2020-9-12 03:49:39 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (176)
 
 
1% (3)    👎
多谢分享,已加米
回复

使用道具 举报

我的人缘0

升级   19.85%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   93% (2128)
 
 
6% (154)    👎
请问这些东西有对应的pdf吗?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://pay.1point3acres.com/tools/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|||一亩三分地

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

Some icons made by Freepik from flaticon.com

快速回复 返回顶部 返回列表