查看: 3238| 回复: 21
收起左侧

[自我提升] Train model一直不能比上个版本好, 怎么办

本楼:   👍  1
100%
0%
0   👎
全局:   278
88%
12%
37

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x

本以为这个task容易干. 1point3acres
谁不知原来上一手train的model (regression的) 都已经算很完美 (他是用random forest的)
regression的target已经用了log tranform
已经用了许多方法, 例如弄多一堆feature engineering
找多一点另外的supplement data
试过normalize一下feature, 感觉影响不大. 1point3acres


试过很多model algo, 发现lightgbm效果最好. ----
可是metrics上面都是最多比之前的好1-2%, 有时什至不会好/ 更差. check 1point3acres for more.


老板一直问, 我也不知道怎样才能有improvement
请问还有什么方法可以试一试?

上一篇:有亩友知道Insight global这家公司吗
下一篇:senior可以问junior问题吗?
地里匿名用户
匿名用户-3RWCS  | 添加认证 | 2024-8-9 18:54:14 来自APP
本楼:   👍  12
100%
0%
0   👎
另外凡事优化模型效果的task都不容易干,楼主显然是误判了。因为没给出问题背景,很难下手具体问题。但是大致的逻辑就是优化模型不如优化特征。优化特征又与问题背景紧密相连,记得曾经接手一个car模型,效果就是没有隔壁组的好,大家花时间优化模型也没效果,于是我deep dive了一下特征,发现一百多个特征里头只有十几个和cvr 有点关系,于是就是疯狂剪掉只和ctr 相关特征,添加cvr特征,瞬间把pk 的那个老组给压下去了,并且足足压了他们十二个月。
回复

使用道具 举报

地里匿名用户
匿名用户-DRUHL  | 添加认证 | 2024-8-9 13:32:45 来自APP
本楼:   👍  3
100%
0%
0   👎
检查一下数据,看看model在哪些slice上性能不好,那些slice是不是数据量不够。
或者是增加feature或者模型复杂度。
再就是或许模型性能已经到头了。

扫码关注一亩三分地求职移民公众号
更多干货内容等你发现
回复

使用道具 举报

本楼:   👍  1
100%
0%
0   👎
全局:   127
95%
5%
7
Gbdt开箱效果都不太差,可以考虑的几个方向

Gbdt不能extrapolate,检查一下train,test,validation的重要feature的区间是不是一致的,典型的像时序分析需要加auto regreesive的feature.--

没有提到有没有调一下超参数,这个一般可以挤出来一点儿好处的,可以指定范围拿lib搜
. From 1point 3acres bbs
可是试试多模型fusion
. 1point3acres.com
回复

使用道具 举报

地里匿名用户
匿名用户-LGE6G  | 添加认证 | 2024-8-9 13:34:07 来自APP
本楼:   👍  0
0%
0%
0   👎
具体是啥metrics
回复

使用道具 举报

地里匿名用户
匿名用户-33F8L  | 添加认证 | 2024-8-9 13:35:00
本楼:   👍  0
0%
0%
0   👎
本帖最后由 匿名 于 2024-8-9 05:39 编辑

我一个sde都看出问题所在了,你的数据源均衡性到极限了!

比如给定训练集

[x1=66,x2=99] - 结果是true.
[x1=66,x2=99]  - 结果是false
... 无数组这类的数据

那很遗憾,你用全天下任何的模型都训练不出来任何结果! 还有就是log transform无法改变数据分布,唯一的作用就是减少方差
回复

使用道具 举报

 楼主| bcy759 2024-8-9 13:56:50 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   278
88%
12%
37
匿名用户 发表于 2024-8-9 01:34.google  и
具体是啥metrics

主要是bias, r2 和. check 1point3acres for more.
公司"创"的metrics: abs((pred - actual) / (actual)), 愈小愈好
回复

使用道具 举报

 楼主| bcy759 2024-8-9 13:58:47 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   278
88%
12%
37
匿名用户 发表于 2024-8-9 01:32
检查一下数据,看看model在哪些slice上性能不好,那些slice是不是数据量不够。
或者是增加feature或者模型 ...

找到那些性能不好的slice后把它们独立再train一个model可行吗
回复

使用道具 举报

 楼主| bcy759 2024-8-9 14:00:05 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   278
88%
12%
37
匿名用户 发表于 2024-8-9 01:35
我一个sde都看出问题所在了,你的数据源均衡性到极限了!

比如给定训练集

有道理
如果是均衡性的问题
看起来这已经是一个死局?
回复

使用道具 举报

地里匿名用户
匿名用户-AW1AA  | 添加认证 | 2024-8-9 14:08:25 来自APP
本楼:   👍  0
0%
0%
0   👎
匿名用户 发表于 2024-08-08 22:35:00
我一个sde都看出问题所在了,你的数据源均衡性到极限了!

比如给定训练集
这种数据不预处理的时候踢出去吗
回复

使用道具 举报

地里匿名用户
匿名用户-33F8L  | 添加认证 | 2024-8-9 14:13:01
本楼:   👍  0
0%
0%
0   👎
bcy759 发表于 2024-8-9 05:58
找到那些性能不好的slice后把它们独立再train一个model可行吗
. 1point 3 acres
这个就是规则+model,也不是不行,如果100个数据放在一起训练情况不佳,那就先规则分组,80个归类到model1里,20个归类到model2里
回复

使用道具 举报

地里匿名用户
匿名用户-DRUHL  | 添加认证 | 2024-8-9 14:48:35 来自APP
本楼:   👍  0
0%
0%
0   👎
bcy759 发表于 2024-08-08 22:58:47
找到那些性能不好的slice后把它们独立再train一个model可行吗
这倒不一定需要.--
就是找到这些模型处理不好的case,看看是不是数据量或feature的问题,想办法提高一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
职场达人
  • ↑ 本版用于讨论职场各种干货话题,闲聊请去🔗聊聊或者🔗匿名版
  • ❌ 本版严禁水贴,引战,发布广告,拉群,贴个人联系方式,扣分无警告
  • ☑ 求职、面经等去 🔗北美求职和 🔗回国求职大区,刷题和学习请去 🔗终身学习大区
  • ☑ 请去专版发布 🔗内推, 🔗招聘信息,和讨论 🔗创业内容
  • ☑ PIP / DevList/ Need Support 等话题也已开设 🔗专版

本版积分规则

>
快速回复 返回顶部 返回列表