中级农民
- 积分
- 204
- 大米
- 颗
- 鳄梨
- 个
- 水井
- 尺
- 蓝莓
- 颗
- 萝卜
- 根
- 小米
- 粒
- 学分
- 个
- 注册时间
- 2019-2-11
- 最后登录
- 1970-1-1
|
本楼: |
👍
100% (8)
|
|
0% (0)
👎
|
全局: |
👍 91% (21) |
|
8% (2) 👎 |
注册一亩三分地论坛,查看更多干货!
您需要 登录 才可以下载或查看附件。没有帐号?注册账号
x
作为机器学习方向中偏application的cs phd, 在此总结自己这几年empirical work的一些血泪经验教训。
恰逢刚熬夜赶完ICML,至少希望自己以后可以更加高效,以避免因没存model ckpt, 没存好对的结果paper中画图需重跑等等问题。
简单来讲就是写paper的时候,需要呈现在paper里的图或者表的各种数据要非常easy get.
具体来讲就是以下几点:
- 开始做好实验设计,确认好 数据处理 (比如data shuffle与否差别很大),模型选择,结果输出保存格式是否principal且高效
- 加速实验debug过程:不要上来就上完整数据和大model,最开始用少量数据和小的model 来debug。同时如果能并行去并行跑多个。
- 保存model 参数设置,尤其是最优性能或者出现在paper里的结果对应的参数,最好做成开始就做成要出现在paper里的图表
- 保存 model checkpoints, 日后很可能需要重新做inference。
- 保存实验结果,以方便翻来覆去画各种图的读取格式。
- 及早确定好要出现在paper里的图的final模式,包括legend, title设定放在哪等等细节,因为初始模板定不好会导致后续类似图都要翻新,耽误时间。
欢迎大家分享其他的点!
补充内容 (2023-01-28 03:07 +8:00):
wandb 很好用,实时查看training curve, 结果可以export 成 csv很方便用来画图等等,没用过的同学用了可能会相见恨晚。
做实验不要有逃避偷懒的心理,比如一个实验多数时候需要跑多次over different random seeds 等等,以check结果的可复现性及stability, 很多review会要求report variance over randomness。
另外系统的了解下matlablib plt画图,会在需要的时候快速的选对命令。
|
上一篇: 求MLE面试准备该看哪些书下一篇: 你们说现在nlp的research还有什么搞头?
|