123
返回列表 发新帖
楼主: 匿名
跳转到指定楼层
上一主题 下一主题
收起左侧

Wayfair DS Intern OA

🔗
nsc 2022-3-25 09:45:22 | 只看该作者
全局:
论坛匿名用户 发表于 2021-10-20 19:57
🈚️啊 估计又凉了哈哈哈,你呢?

lz 都auc_roc 73%了还没下一步面试啊?难道其他题目有问题吗?
再就是这种算auc_roc的题目,是不是都要用cross validation,而不是自己分train data和test data?对DS了解不是很够,请问lz有比较系统的DS学习材料推荐吗?看了smote那个链接,很不错。
谢谢!

评分

参与人数 1大米 +1 收起 理由
Papi_Zhao + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

地里匿名用户
🔗
匿名用户-Q0UYL  2022-3-25 10:30:51
nsc 发表于 2022-3-24 21:45
lz 都auc_roc 73%了还没下一步面试啊?难道其他题目有问题吗?
再就是这种算auc_roc的题目,是不是都要 ...

面试是不可能面试的,这辈子都不可能面试的(狗头. Waral dи,
. Χ
CV 可以用,但我当时时间太少,没有研究出来怎么在pipeline里加上CV,所以索性直接暴力train&predict。

你的background是什么呀,需要从头学起么

评分

参与人数 1大米 +2 收起 理由
nsc + 2 给你点个赞!

查看全部评分

回复

使用道具 举报

🔗
nsc 2022-3-25 11:31:48 | 只看该作者
全局:
论坛匿名用户 发表于 2022-3-24 21:30
面试是不可能面试的,这辈子都不可能面试的(狗头

CV 可以用,但我当时时间太少,没有研究出来怎么在pi ...

lz要有信心,是时候还没到
SMOTE那链接里就有cv的例子,但不是直接放在pipeline里头,我看sklearn有pipeline,是直接用score,那好像只是accuracy,不知怎么能转成roc,恐怕不行。
我cs的,ML方面还凑合,虽然sklearn也用得少,这倒还好,就是发现DS考的好像统计方面比较多,比较细(例如logistic regression),有些库也从没用过(例如time series,也不知是不是重点),要是有个比较系统的材料,把DS intern常考的那些基本包括就行。要是能再有一两个实际设计产品例子,那就更好了
回复

使用道具 举报

地里匿名用户
🔗
匿名用户-Q0UYL  2022-3-25 11:38:48
nsc 发表于 2022-3-24 23:31
lz要有信心,是时候还没到
SMOTE那链接里就有cv的例子,但不是直接放在pipeline里头,我看sklearn有pipe ...

我也是自己在地里找的学习资料:

看Stats & A/B Testing
. 1point3acres.com https://www.1point3acres.com/bbs/thread-845293-1-1.html

前面几个Math小项. 1point 3 acres
https://www.1point3acres.com/bbs/thread-796804-1-1.html. .и

面试准备(包括product case)
https://www.1point3acres.com/bbs/thread-774519-1-1.html

Big Data
https://www.1point3acres.com/bbs/thread-758563-1-1.html

评分

参与人数 1大米 +2 收起 理由
nsc + 2 给你点个赞!

查看全部评分

回复

使用道具 举报

🔗
nsc 2022-3-25 22:43:12 | 只看该作者
全局:
论坛匿名用户 发表于 2022-3-24 22:38
我也是自己在地里找的学习资料:

看Stats & A/B Testing
. Waral dи,
谢谢lz提供这么多资料。
就像imbalanced data一类问题,SMOTE那链接,大部分情况都够用了吧?

评分

参与人数 1大米 +1 收起 理由
Papi_Zhao + 1 楼主/层主请继续!

查看全部评分

回复

使用道具 举报

地里匿名用户
🔗
匿名用户-Q0UYL  2022-3-26 00:08:03
nsc 发表于 2022-3-25 10:43
谢谢lz提供这么多资料。
就像imbalanced data一类问题,SMOTE那链接,大部分情况都够用了吧?

我自己能想到的就是这么几种:
- Random up/down sampling

- SMOTE (up-sampling using KNN to create similar but not identical minority class)

- Penalty Constraint (Penalized-SVM, -> class_weight='balanced')

- Use a performance metric that is sensitive to imbalanced classes  https://machinelearningmastery.c ... ced-classification/

- Algos not that sensitive to imba classes, such as RandomForest, XGBoost

评分

参与人数 1大米 +2 收起 理由
nsc + 2 给你点个赞!

查看全部评分

回复

使用道具 举报

🔗
nsc 2022-3-26 09:06:53 | 只看该作者
全局:
论坛匿名用户 发表于 2022-3-25 11:08. 1point3acres.com
我自己能想到的就是这么几种:.--
- Random up/down sampling

谢谢lz,imbalanced data居然有这么多细节。暂就用SMOTE应对了,以后有具体问题再请教!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表