🎁 Cyber Monday火热进行中:VIP通行证低至5折,解锁全站干货!蓝莓、Offer多多同步优惠! 🎁
回复: 3
收起左侧

买它机器学习设计挂掉的模版

 
本楼:   👍  5
100%
0%
0   👎
全局:   189
83%
17%
38

2024(7-9月) MachineLearningEng 博士 全职@Meta - 猎头 - Onsite  | 😐 Neutral 😐 AverageFail | 在职跳槽

target E6 general MLE博士+6年, 今天收到悲剧信, 意料之中毕竟coding失误了. 几天前提过要分享一下ML design的模版, 因为班上面筋不多, 大佬们补充一下兴许对后来者有用. 针对的是搜广推题目, 其它copyright 检测, 有害内容检测之类的题目,有空了我再写, 大家弃之糟泊的看.


推荐的题目, masketplace item 推荐, short video 推荐, nearby place推荐等; 推荐系统一般只有general query或者没有query, 只能当类别retrieval channel或者user embedding的一部分, 不需要query processing. 而要侧重user login作为输入, 输出是a list of recommendations according to personalization and user preference. ML objective是accuracy, 还要考虑diversity. 其它的non-functional requirements可以提一下scalability, low latency足够.


广告ranking题目, 我觉得是类似推荐的, 没有query, 只有user past behavior做personalization, 也需要考虑diversity, 毕竟不能把相似广告放一起给用户影响体验. 如果不考虑diversity, 那就要在metric里考虑DCG或者PNR了, 因为最后输出的list, order是重要的, 不只是binary的点和不点了. 同时广告要考虑explicit negative feedback, 就是hide block这种反馈, 对于multi-task的ranking来说很好实现, 就是多一个头label反着01, 但在策略上可能要考虑delay多久再次投送的问题


搜索的题目, 就要问清是general search还是vertical domain search了, 需要query process, 这部分很重要但是在ML design里却不太重要, 可能涉及query的tokenization, BPE, wordpiece, sentencepiece, 还有term的weight; 涉及user intention detection, 比如是否时间敏感; 涉及搜索对象的quality estimation, 比如doc的EAT分数, website的pagerank分数,图像的resolution分数; 但并不是ML design的重点. search虽然用到user past interaction作为参考, 但更重要的是query和candidates的relevance, 这个和推荐不一样. 有一类搜索题目是图搜图, 或者copyright, 这个模版就不太适合了


Clarify部分, 要问清是否有query, user interaction有哪些种类, click, like, save, share, rating, 是否考虑负面反馈, 是否考虑implicit feedback比如long click或者dwell time; 要问清是否是user generated content, 因为UGC的话goal就多了个penetration rate, 希望content pool越大越好, new content能够被及时曝光, 要讨论cold start, 不然会影响user engagement. 对象一般会包括textual, image, 有没有video要问清. 然后问是否考虑user-user connection, follower和friend, 有些同学可能会用GNN做, 我个人会把user-user当一个召回通道, 比如news feed的题目, 其实是推荐, 因为你friend的post并不多.


Data部分, 广推是personalization为主, user部分需要ID, demographic, past behavior, user embedding通过双塔来学习; item部分是category, hashtag, description, age, 如果UGC就需要creator info. item的feature engineering是在发布时线下学好的, 其中textual的部分basic LM extract feature vector, 比如word2vec, BM25, TFIDF; image用unsupervised model不用label的那些CLIP, SimCLR来extract, video也用frame-based就好, 因为这些feature是初步的, 真正的item embedding也是双塔来learn; 这里我说的不对的话大佬指正; user, item,然后是user-item interaction data; 还有aggregated statistics, 就是interaction in 1week/month之类; 还有contextual data, 就是device, time of the date, location,isHoliday之类; feature engineering可以提one-hot和buketize. 搜索就没personalization那么多事儿, item部分差不多
您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
使用VIP即刻解锁阅读权限或查看其他获取积分的方式
游客,您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
VIP即刻解锁阅读权限查看其他获取积分的方式
pert (MMOE). 训练的正负样本就是有无相应的交互行为, 对应每个head做sigmoid; 整个ranking的loss是weighted sum of BCE, weight是超参预设; 输出是一个aggregated score用于排序. 这里有正负样本imbalance的问题, downsample就好, 但是要calibrate according to downsampling rate. 有可能会有watching time或者dwell time这种使用非离散数据的head, regression也行, 也可以用 t / t+1 去逼近 sigmoid exp(z) / 1 + exp(z), 转换成BCE.


Metrics, offline的, 召回其实最重要是recall; end2end的metrics, 不考虑rank的就都是binary的mAP, F1, AUC那些; 考虑order的就提一提MRR, ERR, DCG, PNR这些. online的metrics, click through rate肯定要提, GMV, conversion rate, DAU, user engagement time这些就看着办了.


re-rank和deploy就不讲了. 我个人是做视觉和多模态的, 搜广推全是自学, 肯定有很多遗漏甚至错误, 自己也fail了面试, 希望别怪我在误人子弟, 以上只是分享我的准备, 兴许给大家多个思路. 面试的时候说不了这么多, 但是也不得不多准备一些, 还是那句话, 大家弃之糟泊的看. 大佬多补充.



本帖子中包含更多资源

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x

评分

参与人数 26大米 +44 收起 理由
zoe + 1 很有用的信息!
martinhua + 2 感谢分享
3329 + 1 赞一个
tl635 + 1 赞一个
zero_you + 2 给你点个赞!

查看全部评分


上一篇:买它店面
下一篇:sigmacomputing Phone interview
 楼主| ChrisDing2018 2024-11-2 22:23:39 | 显示全部楼层
本楼:   👍  2
100%
0%
0   👎
全局:   189
83%
17%
38
tofel18 发表于 2024-11-1 17:57
楼主楼主, 能讲讲怎么copyright 检测吗?另外model serving的部分应该怎么答呀~ 类似how to roll out new ...

copyright检测我的理解就是用图搜图, 用embedding找similarity. 要clarify多大的范围找candidates?如果很多,那就套漏斗设计先粗粒度召回narrow范围,再上深一点的模型做细粒度的检测

model serving就是我online那部分, 假设offline已经训练好了embedding model, 建立了ANN indexing, 就可以对新的输入做similarity search找出k个candidates了. 然后对candidates augment more feature,  用这个concatenated feature作为shared bottom模型的输入, predicted score怎么aggregate一下, Learn to rank也有可能, 就输出了

新模型要过AB test, 用online metric做评估, AB test可以遵循canary release, 留10%做holdout, 其它的做factorial experiment design,就是同一个factor内的level要互斥, 不同factor之间是正交; 如果一段时间里significant improvement就可以推全, 留一小部分做reverse AB. 你说的roll out应该就是这个流程

monitoring提一提Grafana, prometheus, 观察online metrics, 防止business shift; Data collection, 尽量不要去标注, 用系统记录交互行为和驻留时间. 如果非要标注, 提一提aws sagemaker ground truth, 把标注任务分发给同事一起完成, 我觉得面试用足够了吧

评分

参与人数 1大米 +2 收起 理由
tofel18 + 2 很有用的信息!

查看全部评分

回复

使用道具 举报

tofel18 2024-11-2 09:57:39 | 显示全部楼层
本楼:   👍  1
100%
0%
0   👎
全局:   106
96%
4%
4
楼主楼主, 能讲讲怎么copyright 检测吗?另外model serving的部分应该怎么答呀~ 类似how to roll out new model? how to monitor model health? how to design the infra for data collection? real-time tracking event etc...在面试中被问到了,但是Alex xu的书里这方面的讨论很少
扫码关注一亩三分地求职移民公众号
更多干货内容等你发现
回复

使用道具 举报

vincent_great 2024-11-6 05:40:23 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   409
96%
4%
19
话说推荐问题的ML objective不应该是precision/average precision么?
因为我们并不关心负样本的分类正确与否。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

Advertisement
>
快速回复 返回顶部 返回列表