查看: 4137| 回复: 16
收起左侧

[找工就业] 怎么准备ML Coding Interview特别是Debug ML training model

 
Martin喻 来自APP | 显示全部楼层
本楼:   👍  5
100%
0%
0   👎
全局:   5
100%
0%
0

2025(4-6月)-EE硕士+5-10年 | 网上海投|BayArea湾区 MachineLearningEng全职@

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
  • 地里的朋友们大家好,我目前是作自动驾驶的prediction和planning方向,在从传统的rule-based的方法往learning-based方法转型,感觉现在的公司做的太慢了或者说没有机会参与更多的learning-based工作,想跳槽去其他公司类似组作更多learning-based的工作
  • 最近面试了两三家公司的ML prediction和planing的职位,都是在ML Coding Interview特别是Debug ML training model的环节挂了,模式都是一样的,就是给一个ML pipeline,说里面有几个bug,要一个一个fix,可能是我模型搭建和训练还不够熟练的原因,很多时候都要面试官提示才能找出bug,然后fix,所以fail了
  • 请问大家,如何积累这方面的面试经验,地里或者网上有什么工具,或者大家任何的经验分享,都对我很有帮助,我目前不急着找下家,但是还是想多积累经验往这方面转,想根据这几次的失误,吸取经验,以免下次同样的问题又fail了,谢谢!
. 1point3acres.com
. 1point 3acres

. check 1point3acres for more.
补充内容 (2025-05-15 05:47 +08:00):

看到了大家的回复,补充以下我之前面试遇到的bug类型:
  • 简单的2D CNN 做image object detection,记得经过提示有两个bug: 一个是计算loss的时候把label当作pred,导致loss一直降不下来;另一个是validation set和training set的参数不一样,导致distribution 不一样,所以validate的效果很差,把validation set的参数调成和training set的参数一样就好很多了
  • 还有个比较难的autoregressive transformer based prediction model, 记得好像有这几个bug: 一个是input embedding的参数好像设置为zeros,导致embedding以后一直为0,改称randn就好点;另一个是attention mask初始化因该是-inf而不是inf; 最后一个好像是很简单的输入和输出,把输入当成输出,导致模型训练的loss很小,因为相当于训练一个X->X线性模型

评分

参与人数 5大米 +5 收起 理由
Jager + 1 赞一个
pkudebra + 1 赞一个
justvic + 1 赞一个
yxfwfqyd + 1 赞一个
Jedreke + 1 赞一个

查看全部评分


上一篇:停止刷 LeetCode (试试更好的方法)
下一篇:求Information Sciences and Technology信息科学与技术暑假实习
mtj66666 2025-5-14 11:36:29 | 显示全部楼层
本楼:   👍  8
100%
0%
0   👎
全局:   13
100%
0%
0
可以看看Andrej Karpathy的油管视频 从零开始搭讲得很细 做了好多年learning看他的视频都很有收获

评分

参与人数 1大米 +1 收起 理由
lijeffrey + 1 赞一个

查看全部评分

回复

使用道具 举报

YangLoveXin 2025-5-15 12:13:08 | 显示全部楼层
本楼:   👍  4
100%
0%
0   👎
全局:   645
94%
6%
43
我还没怎么面过太多 ML coding 题目,之前面 Antropic 的时候有个 ML coding 题目,最后跑出来 AUC 干到 1 去了,后来发现是 data 埋了坑,用老本行 feature importance 给揪出来了。总结一些自己做推荐系统的时候遇到过的一些问题
1. offline 效果好 online 效果差, 有可能是 traffic distribution 不一样了,也有可能是 training feature 有 label leakage
2. 模型 training NE/loss 突然炸了,可能是突然遇到巨大的 gradient, 这时候可以考虑 clipping; 也可能是遇到坏点数据了,这时候考虑 blackout (假设是 date partition)
3. 其他的一些 modeling 的 bug 这个感觉实际没遇到很多,一般会跑跑简单的 unittest 来测试一下
4. 模型 online prediction 炸了,很有可能是某个 feature 挂了
回复

使用道具 举报

 楼主| Martin喻 2025-5-14 11:42:06 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   5
100%
0%
0
mtj66666 发表于 2025-5-13 23:36
可以看看Andrej Karpathy的油管视频 从零开始搭讲得很细 做了好多年learning看他的视频都很有收获
. 1point 3acres
好的,多谢,之前上Deep Learning课的时候看过他的视频和blog,确实讲的很详细和清楚
回复

使用道具 举报

snowblink 2025-5-15 00:59:17 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   356
99%
1%
3
不知道你的bug主要是因为ML model原理不熟,还是pipeline integration不熟悉?
前者看视频复习,自己实现模块(e.g., decision tree),后者找一个实际的面试problem,自己想想需要什么模块,试着从头到尾实现一遍。
这些题多半靠的不是“面试经验”,是实际工作中积累的经验。如果你工作中没有机会,时间又宽裕,就用personal project来积累经验。
有一些blog也会贴做e2e system的代码,可以参考。但是这类blog质量一般良莠不齐,要注意鉴别。
回复

使用道具 举报

lazycat321 2025-5-15 04:53:57 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   232
100%
0%
0
楼主能给几个例子吗?好奇是什么bug?pipeline很复杂么?
回复

使用道具 举报

我是岁静派 2025-5-15 05:06:13 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   106
84%
16%
20
lz说的太general了,你是被考modeling还是infra,这两种考点差远了
回复

使用道具 举报

 楼主| Martin喻 2025-5-15 05:47:35 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   5
100%
0%
0
lazycat321 发表于 2025-5-14 16:53
楼主能给几个例子吗?好奇是什么bug?pipeline很复杂么?

请看我的补充帖子
回复

使用道具 举报

 楼主| Martin喻 2025-5-15 05:49:28 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   5
100%
0%
0
我是岁静派 发表于 2025-5-14 17:06
lz说的太general了,你是被考modeling还是infra,这两种考点差远了

请看我的补充帖子,我觉得bug主要是跟model和training的输入输出,loss,还有dataset的distribution相关,但是这也是我目前指导的,可能还会有其它类型的bug
回复

使用道具 举报

 楼主| Martin喻 2025-5-15 05:52:18 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   5
100%
0%
0
snowblink 发表于 2025-5-14 12:59
不知道你的bug主要是因为ML model原理不熟,还是pipeline integration不熟悉?
前者看视频复习,自己实现 ...

很有用多谢,可能还是要多做一些personal project,多训练模型解决一些常见的问题
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表