一亩三分地

 找回密码 注册账号

扫描二维码登录本站

微信公众号
扫码关注公众号
留学申请公众号
扫码关注留学申请公众号
楼主: chztony
收起左侧

业界中DS/ML应用上线Implementation的问题

  [复制链接] |只看干货 |机器学习
我的人缘0
 楼主| chztony 2017-7-8 02:32:52 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   86% (1871)
 
 
13% (297)    👎
glennq 发表于 2017-7-7 14:54
我觉得这个问题的关键在于,你们公司需要
1. 一套ML模型专用的请求返回接口
2. 定下一套常用的ML框架,在 ...

谢谢! 这些方案都得和SDE讨论看看了, 毕竟自己没CS背景能写点OOP懂点基本常识已经很勉强了囧。。
回复

使用道具 举报

我的人缘0

升级   1.9%

glennq 2017-7-8 11:15:50 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   97% (37)
 
 
2% (1)    👎
chztony 发表于 2017-7-8 02:32
谢谢! 这些方案都得和SDE讨论看看了, 毕竟自己没CS背景能写点OOP懂点基本常识已经很勉强了囧。。

关键是要让SDE觉得他们能一劳永逸的开发一套工具,然后以后新的模型只要还是用同一个框架(比如tensorflow,scikit-learn,或者spark mllib),就能很方便的用这套工具两三下搞定。

要是每次有个新模型都得用JAVA重写那谁都受不了

评分

参与人数 1大米 +3 收起 理由
Steinhafen + 3 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘8
K姐 2017-7-8 14:12:05 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   95% (9932)
 
 
4% (512)    👎
这楼的讨论很不错啊
这也是为什么,虽然有SDE,做模型开发的同学还是越能码越好,方便交流合作。
回复

使用道具 举报

我的人缘0
YZDH 2017-7-8 16:22:53 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   91% (3490)
 
 
8% (309)    👎
本帖最后由 demonhunter 于 2017-7-8 16:25 编辑

建议尽量不要用什么JAVA重写,以后很难很难找到其他DS来维护的。

你们要是不做严格意义上online learning,做的model可以l隔一段时间offline re-train一次后把train好的model发给SDE。根据你们的model,他们来implement一个featurel对新用户scoring,当然你们也得做个一个table来收集这些new user的feature,prediction结果,和actual activity。

至于做table这个东西,最好自动化。我们用的是Apache Airflow。

BTW,sklearn+Amazon test box instance,handle 几十GB 左右data没什么太大问题。

评分

参与人数 3大米 +5 收起 理由
tomato217 + 3 很有用的信息!
china_rmb_cs + 1 赞一个
Steinhafen + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘0
 楼主| chztony 2017-7-14 21:16:41 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   86% (1871)
 
 
13% (297)    👎
glennq 发表于 2017-7-7 14:54
我觉得这个问题的关键在于,你们公司需要
1. 一套ML模型专用的请求返回接口
2. 定下一套常用的ML框架,在 ...

问个小白问题。。请问一下返回这个借口是不是指例如把Python写成一个包封装起来的意思呢?然后整个包给SDE? 那么这个包是存在线上呢还是哪里离线的呢?
回复

使用道具 举报

我的人缘0

升级   98.75%

ppstacy 2017-7-19 01:30:26 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   93% (15)
 
 
6% (1)    👎
glennq 发表于 2017-7-7 14:54
我觉得这个问题的关键在于,你们公司需要
1. 一套ML模型专用的请求返回接口
2. 定下一套常用的ML框架,在 ...

我感觉你提的第一套方案比较可行又可以重复利用。。。 小白一个,但是不知道这些都需要具体怎么实现。有没有一些相关的东西可以分享读一下呀?
回复

使用道具 举报

无效楼层,该帖已经被删除
我的人缘0

升级   28%

alexisheeee 2018-7-26 12:25:23 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   92% (39)
 
 
7% (3)    👎
demonhunter 发表于 2017-7-8 16:22
建议尽量不要用什么JAVA重写,以后很难很难找到其他DS来维护的。

你们要是不做严格意义上online learnin ...

那么这个model还是用python写的是嘛
回复

使用道具 举报

我的人缘0

升级   1%

sihao 2018-7-30 21:33:48 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   81% (18)
 
 
18% (4)    👎
可以用python训练模型,线上用java做prediction。不同模型方法不同,没有一劳永逸的办法
回复

使用道具 举报

我的人缘0

升级   0%

zxiaoc 2018-8-18 03:39:44 | 显示全部楼层
本楼: 👍   100% (27)
 
 
0% (0)   👎
全局: 👍   100% (42)
 
 
0% (0)    👎
正在做的工作内容就是exactly做这个: 将data scientist做好的model launch to production, 简单答一波~
在目前所在公司的流程是
0. Data scientist训练测试完的model保存成一个可以直接call的格式
1. 将feature pulling的过程改写成一个脚本,一般sql pull from database
2. 将feature cleaning的过程写成一个脚本,一般python or R
3. 将prediction过程写成脚本
(1-3 原文件都是data scientist写的,这里主要是模块化,参数化,改进效率etc,写成可以直接call and run的project)
4. 再写脚本将以上步骤串起来,配置好database、server、各种环境参数、中间步骤的input output各种路径连接
5. docker封装
6. 写Airflow scheduling the whole process, 写monitor监测每个步骤

评分

参与人数 21大米 +84 收起 理由
tomato217 + 3 谢谢分享!
zhuangvandy + 3 给你点个赞!
SpencerSi + 1 很有用的信息!
不要拧巴 + 2 很有用的信息!
K叔 + 10 很有用的信息!
dukegj + 3 谢谢分享!
lx70716 + 3 给你点个赞!
balalalala + 1 赞一个
shiningBloom + 1 赞一个
ironhead + 1 赞一个

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://tools.1point3acres.com/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|||一亩三分地

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

Some icons made by Freepik from flaticon.com

快速回复 返回顶部 返回列表