如何高效的做实验管理

Like999

注册一亩三分地论坛，查看更多干货！

您需要登录才可以下载或查看附件。没有帐号？注册账号

x

作为机器学习方向中偏application的cs phd, 在此总结自己这几年empirical work的一些血泪经验教训。
恰逢刚熬夜赶完ICML，至少希望自己以后可以更加高效，以避免因没存model ckpt, 没存好对的结果paper中画图需重跑等等问题。

简单来讲就是写paper的时候，需要呈现在paper里的图或者表的各种数据要非常easy get.
具体来讲就是以下几点：

开始做好实验设计，确认好数据处理（比如data shuffle与否差别很大），模型选择，结果输出保存格式是否principal且高效
加速实验debug过程：不要上来就上完整数据和大model，最开始用少量数据和小的model 来debug。同时如果能并行去并行跑多个。
保存model 参数设置，尤其是最优性能或者出现在paper里的结果对应的参数，最好做成开始就做成要出现在paper里的图表
保存 model checkpoints, 日后很可能需要重新做inference。
保存实验结果，以方便翻来覆去画各种图的读取格式。
及早确定好要出现在paper里的图的final模式，包括legend, title设定放在哪等等细节，因为初始模板定不好会导致后续类似图都要翻新，耽误时间。

欢迎大家分享其他的点！

补充内容 (2023-01-28 03:07 +8:00):
wandb 很好用，实时查看training curve, 结果可以export 成 csv很方便用来画图等等，没用过的同学用了可能会相见恨晚。

做实验不要有逃避偷懒的心理，比如一个实验多数时候需要跑多次over different random seeds 等等，以check结果的可复现性及stability, 很多review会要求report variance over randomness。

另外系统的了解下matlablib plt画图，会在需要的时候快速的选对命令。

asder777aw

赞赞赞，希望我们的paper都能中！

Blanche-

感谢分享！

如何高效的做实验管理

注册一亩三分地论坛，查看更多干货！

评分

相关帖子

评分

浏览过的版块