活跃农民
- 积分
- 824
- 大米
- 颗
- 鳄梨
- 个
- 水井
- 尺
- 蓝莓
- 颗
- 萝卜
- 根
- 小米
- 粒
- 学分
- 个
- 注册时间
- 2020-10-26
- 最后登录
- 1970-1-1
|
我还没怎么面过太多 ML coding 题目,之前面 Antropic 的时候有个 ML coding 题目,最后跑出来 AUC 干到 1 去了,后来发现是 data 埋了坑,用老本行 feature importance 给揪出来了。总结一些自己做推荐系统的时候遇到过的一些问题
1. offline 效果好 online 效果差, 有可能是 traffic distribution 不一样了,也有可能是 training feature 有 label leakage
2. 模型 training NE/loss 突然炸了,可能是突然遇到巨大的 gradient, 这时候可以考虑 clipping; 也可能是遇到坏点数据了,这时候考虑 blackout (假设是 date partition)
3. 其他的一些 modeling 的 bug 这个感觉实际没遇到很多,一般会跑跑简单的 unittest 来测试一下
4. 模型 online prediction 炸了,很有可能是某个 feature 挂了 |
|