亚麻OA求砸,面经神衣护体!


一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
天天打游戏、照样领工资、还办H1B
这份工作你要不要?
把贵司招聘信息放这里
查看: 1173|回复: 19
收起左侧

[申请哪些学校] 想用机器学习做一个录取率评估程序,征求意见

[复制链接] |试试Instant~ |关注本帖
bluemapleman 发表于 2017-6-25 23:43:57 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
如题 有想法用机器学习模型做一个程序评估针对某具体院校的录取几率,特征是申请人的三维呀,本科院校等级呀,科研实习有无等等,训练数据准备爬虫爬一下地里的播报帖获得。

以上是初步想法,看大家觉得可行性如何,或者有没有什么想法?
shuyangsheng 发表于 2017-6-26 03:14:47 | 显示全部楼层
1. 样本量太少
2. 信号噪音大且空白项多
3. 科研背景之类的东西没有办法量化
4. 本科院校也没办法量化,直接用院校来做feature太过稀疏,编码成院校等级就又是一个主观过程,人为偏差太大
5. 各个学校标准不一样,不能放在一起做训练,但每个学校分别训练的话回到1,样本量太少太少
6. 上面提到的采样偏差问题,最简单的线性模型也有一个global intercept,negative sample的数量会直接影响这个intercept
. 鍥磋鎴戜滑@1point 3 acres
简而言之巧妇难为无米之炊。
回复 支持 2 反对 0

使用道具 举报

SourceII 发表于 2017-6-26 00:21:49 | 显示全部楼层
感觉是可以,但是
1. 样本还是比较小,而且在地里兢兢业业每个学校必报并且写清背景的,一般也是认真做事、认真准备申请的人,他们犯的错误更少、材料准备更用心,所以结果也会偏好;
2. 这个数据对中介、学校似乎更有用一些,对普通同学未必非常受用,因为概率终究只是一个不知道任何特殊情况的估计,作为每个申请个体还是应该多看一看自己的特点再权衡,实际上该做的功课总量可能不会有什么变化。
回复 支持 反对

使用道具 举报

小K 发表于 2017-6-26 00:27:35 | 显示全部楼层
地里从前也讨论过。最大问题是biased sampling.
回复 支持 反对

使用道具 举报

 楼主| bluemapleman 发表于 2017-6-26 09:24:38 | 显示全部楼层
SourceII 发表于 2017-6-26 00:21 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
感觉是可以,但是
1. 样本还是比较小,而且在地里兢兢业业每个学校必报并且写清背景的,一般也是认真做事 ...

有道理 样本确实可能比较少 而且每年形势变化貌似也比较大
回复 支持 反对

使用道具 举报

 楼主| bluemapleman 发表于 2017-6-26 09:26:18 | 显示全部楼层
shuyangsheng 发表于 2017-6-26 03:14
1. 样本量太少
2. 信号噪音大且空白项多
. visit 1point3acres.com for more.3. 科研背景之类的东西没有办法量化

看来还是只能继续“玄学”申请了(手动滑稽)
回复 支持 反对

使用道具 举报

zengqlleo 发表于 2017-6-26 10:09:05 | 显示全部楼层
可以,问题是爬数据太费劲了,还要去重,光在一亩三分地上的samples肯定不够的。属于吃力不讨好的类型。。。
回复 支持 反对

使用道具 举报

滚动的西瓜 发表于 2017-6-26 11:02:40 | 显示全部楼层
我建议楼主真有兴趣可以尝试一下的,发挥极客精神嘛。做统计学习肯定会有很多很多的困难的,积累经验也好的,
回复 支持 反对

使用道具 举报

 楼主| bluemapleman 发表于 2017-6-26 16:52:02 | 显示全部楼层
滚动的西瓜 发表于 2017-6-26 11:02.鏈枃鍘熷垱鑷1point3acres璁哄潧
我建议楼主真有兴趣可以尝试一下的,发挥极客精神嘛。做统计学习肯定会有很多很多的困难的,积累经验也好的 ...

谢谢鼓励 确实主要是出于兴趣 觉得所学能够帮上自己正在遇到的实际问题的话很有成就感和动力
回复 支持 反对

使用道具 举报

tonyabracadabra 发表于 2017-6-26 22:45:50 | 显示全部楼层
我也想过这个问题,感觉最重要的就是和中介公司合作,毕竟他们有所有人的所有申请材料,虽然这些材料还会有偏差,毕竟真正的大神是不会找中介的。。。
回复 支持 反对

使用道具 举报

Mitochondria 发表于 2017-6-26 23:02:21 | 显示全部楼层
我有统计过17Fall百分之85以上的录取数据
直接把top2和双非去掉(背景干扰太大),牛paper的去掉,剩下的根据三维用excel做了手工整理,包括各个学校的评价和特点(来源于比较贴和院系介绍)
现在还是很清楚要申请什么学校的

机器学习没有必要,样本量太小了。而且关键是喜欢报ad的主要是收割机和大牛
被拒了的不喜欢报,而且背景偏弱侥幸过了的人也不喜欢报。
.鐣欏璁哄潧-涓浜-涓夊垎鍦由于统计了数据,在回复一下帖子的时候我经常说17Fall录取的都是GPAXXX以上的
然后一般都有人出来打我脸,一看他的主题根本就没发过汇报帖
23333

所以其实还是知道自己大概在哪个区间就可以了

补充内容 (2017-6-26 23:09):
还有更关键的是加一些相关学校的前辈多交流
多掌握一些实时信息,比如有的学校“刷题大神也没找到工作,但是女生都找到了”这些东西统计不出来的
回复 支持 反对

使用道具 举报

yierge 发表于 2017-6-26 23:25:54 | 显示全部楼层
干扰信息太多,诸如之前提到的很多不可量化因素及严重样本偏差问题
如果一定要做可以考虑从学校类型角度出发,比如专做已明确知道的强委员会录取的学校,此类学校一般对可量化的硬指标比较看重. visit 1point3acres.com for more.
博士申请里靠方向和陶瓷的基本就是随机数了
回复 支持 反对

使用道具 举报

 楼主| bluemapleman 发表于 2017-6-26 23:25:55 | 显示全部楼层
Mitochondria 发表于 2017-6-26 23:02
我有统计过17Fall百分之85以上的录取数据
直接把top2和双非去掉(背景干扰太大),牛paper的去掉,剩下的 ...

哇 赞 请问你搜集的是cs的吗?如果是,可以的话还想求一下excel文件* *!
回复 支持 反对

使用道具 举报

 楼主| bluemapleman 发表于 2017-6-26 23:27:58 | 显示全部楼层
yierge 发表于 2017-6-26 23:25
干扰信息太多,诸如之前提到的很多不可量化因素及严重样本偏差问题
如果一定要做可以考虑从学校类型角度出 ...

请问哪些是强委员会学校怎么看呢?或者哪里有整合吗?我还是新人,知道的不多
回复 支持 反对

使用道具 举报

yierge 发表于 2017-6-26 23:30:01 | 显示全部楼层
bluemapleman 发表于 2017-6-26 23:27. 鍥磋鎴戜滑@1point 3 acres
请问哪些是强委员会学校怎么看呢?或者哪里有整合吗?我还是新人,知道的不多

得去地里翻老帖子,有些报录取结果的人会提,或者在申请板块有人会讲到跟学校小米教授之类的发邮件问出来此类信息
回复 支持 反对

使用道具 举报

wylly 发表于 2017-6-27 01:16:13 | 显示全部楼层
特征有些少,感觉来个decision tree最强。。。
回复 支持 反对

使用道具 举报

wendingp 发表于 2017-7-6 19:08:47 | 显示全部楼层
Mitochondria 发表于 2017-6-26 23:02.鐣欏璁哄潧-涓浜-涓夊垎鍦
我有统计过17Fall百分之85以上的录取数据
直接把top2和双非去掉(背景干扰太大),牛paper的去掉,剩下的 ...

求数据+1
回复 支持 反对

使用道具 举报

james47 发表于 2017-7-9 21:29:41 | 显示全部楼层
Mitochondria 发表于 2017-6-26 23:02
我有统计过17Fall百分之85以上的录取数据
直接把top2和双非去掉(背景干扰太大),牛paper的去掉,剩下的 ...

66666666
回复 支持 反对

使用道具 举报

ybu2222 发表于 2017-7-10 00:50:39 | 显示全部楼层
之前好像看到哪个大学在招人做这个
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-10-20 15:11

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表