一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 1686|回复: 5
收起左侧

[学Python/Perl] 关于合并用python导入spark,RDD中的CSV数据的问题

[复制链接] |试试Instant~ |关注本帖
CraigZhang 发表于 2016-2-29 20:55:11 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
#数据说明:
#Stage1_train_label.CSV         400X7(400行7列),无用数据只有第一列的序列号,
#Stage1_train_feature.CSV     400X73(400行73列),无用数据第一列是序列号


#将RDD元素转换成float型函数
def converttofloat(s):   
    l = (float(i) for i in s)

    return l

#读取数据 sc.textFile 并去掉label、feature第一列无用数据
Data_train_label = sc.textFile(r'Stage1_train_label.CSV',6,0).map(lambda row:row.split(',')).map(lambda s:s[1:])          #不明白6,0是什么意思
Data_train_feature = sc.textFile(r'Stage1_train_feature.CSV',72,0).map(lambda row:row.split(',').map(lambda s:s[1:])

Data_train_label_Sum = Data_train_label.map(lambda s:(int(s[0])+2*int(s[1])+4*int(s[2])+10*int(s[3])+20*int(s[4])+40*int(s[5]))) #多标签转换成单标签 各标签的权值分别是 1,2,4,10,20,40
Data_train_feature =Data_train_feature.map(converttofloat)

#合并数据 的目标是:
#将Data_train_label_Sum的400个元素依次添加到Data_train_feature 400个RDD内最后一个位置
Data_train = Data_train_feature.union(Data_train_label_Sum)
print Data_train.collect()

#结果:Data_train_label_Sum的400个元素 直接添加到 Data_train_feature 后面

label+feature

label+feature




对于这样简单问题,我也不会,查阅资料尝试许久还是没有解决,最终鼓起勇气发帖求救!!
求各位师兄师姐前辈指点指点
怎么实现添加到数列最后一个位置的合并
谢谢了




luochen01 发表于 2016-2-29 21:24:11 | 显示全部楼层
合并数据应该可以用zip,然后有必要的话再map一下……
回复 支持 反对

使用道具 举报

dangyue 发表于 2016-2-29 23:36:33 | 显示全部楼层
textfile里面的参数是数据分片的参数吧,我看官网上是minPartition,应该有默认值。union为啥不能用呢?我想试一下~你有QQ吗,我的857739226,可以交流一下~我也刚学Spark,不知这部分好找工作吗~
回复 支持 反对

使用道具 举报

wwk55551111 发表于 2016-3-1 00:11:53 | 显示全部楼层
嘿嘿,想把最后一列弄成目标,弄机器学习是吧。可以把两个先打散再union
回复 支持 反对

使用道具 举报

 楼主| CraigZhang 发表于 2016-3-1 14:11:21 | 显示全部楼层
dangyue 发表于 2016-2-29 23:36
textfile里面的参数是数据分片的参数吧,我看官网上是minPartition,应该有默认值。union为啥不能用呢?我 ...

union 直接将第二个RDD全部连接到最后面了  我也是正开始学 q 1602735534
回复 支持 反对

使用道具 举报

 楼主| CraigZhang 发表于 2016-3-1 14:14:34 | 显示全部楼层
wwk55551111 发表于 2016-3-1 00:11
嘿嘿,想把最后一列弄成目标,弄机器学习是吧。可以把两个先打散再union

怎么打散??
恩恩  想做机器学习  打标签什么方法算法还没有思路啊。。
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-6 02:46

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表