查看: 956| 回复: 6
收起左侧

关于KNN的问题,求各位大神帮忙

|只看干货
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (2)
 
 
0% (0)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
目前想利用scikit learn 做一个PCB数据相似度比对的模型,透过KNN找出新物体与以往最相似的物体。
数据内容 :

名字  层总数 尺寸大小 层别材料 属性厚度 代码  层别 材料.....
A 8 24 X 20 2/3 IT888 S/P 11 030 4/5 IT888......
B 12 22 X 24 2/3 IT777 S/P 5.5 021 4/5  IT777.....
......

说明:数据清洗的阶段如上,一个数据有一个主要名字,总共有几层,它的尺寸,然后有每一层的内容。
问题询问 :
1.除主资料外又有很多附属属性(各层别的内容信息),所以摸不着头绪该如何处理 ? 当前想到的是针对字符串的字段都用 onehot encoder ?
2.能否分割数据直接变成,2/3层 一行 、4/5数据一行,再丢进模型里去训练 ?
3.是否有更好的模型与方法能建立数据相似度模型 ?

想请各位大神,协助解开这个困扰半个月的难题~~~~

上一篇:寻找Python大佬有偿求带
下一篇:请问大家发论文时的“机器学习性能”都用什么?
zhouxf53 2022-11-24 12:06:34 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   99% (381)
 
 
0% (2)    👎
CS小新手想上岸 发表于 2022-11-23 18:36
如大大所说,层数、大小可能先用bayes 先分类较好。
目前先缩小范围,只拿总层数为8层且大小相同的资料 ...

是否不适合用KNN 反而用k means会好一点

这就是我之前的回答呀,直接抛弃KNN用decision tree或者bayes一个模型出结果不行吗。K-means也不能直接适用于categorical input
回复

使用道具 举报

 楼主| CS小新手想上岸 2022-11-24 10:36:52 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (2)
 
 
0% (0)    👎
zhouxf53 发表于 2022-11-22 14:31
categorical input的话要不要考虑下decision tree或者直接naive bayes
KNN需要你定义category之间的distan ...

如大大所说,层数、大小可能先用bayes 先分类较好。
目前先缩小范围,只拿总层数为8层且大小相同的资料进行训练比对。
材料 → 91种  ;  属性 → 4 种
厚度 → 3 种   ;  胶片代码 → 30~100种

是否需要2/3 层的 与 4/5 层的 6/7 层的分开模型分类 ?
从资料上来看似乎没有设为标签的项目.....是否不适合用KNN 反而用k means会好一点 ?
如果要维持使用KNN 想问标签设什么会比较好 ?
回复

使用道具 举报

Ribosome_25 2022-11-22 10:44:34 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   86% (116)
 
 
13% (18)    👎
关键是如何定义相似度,层数不同的情况下,相似度怎么定义,还有不同的材料,相似度是不是一样。定义了相似度之后,问题就清楚了。
回复

使用道具 举报

 楼主| CS小新手想上岸 2022-11-22 13:49:36 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (2)
 
 
0% (0)    👎
Ribosome_25 发表于 2022-11-22 10:44
关键是如何定义相似度,层数不同的情况下,相似度怎么定义,还有不同的材料,相似度是不是一样。定义了相似 ...

先决条件应该是外部层数相同,再以资料内层内容不同做相似度比较。
有思考过,是否需要训练多个模型。比如八层、十层、十二层各独立一个模型 ?
再用if判断式设立先决条件,依层数、尺寸等 ,决定投入哪个模型。
回复

使用道具 举报

zhouxf53 2022-11-22 14:31:28 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (381)
 
 
0% (2)    👎
categorical input的话要不要考虑下decision tree或者直接naive bayes
KNN需要你定义category之间的distance,譬如如何能做到材料类型之间的距离和你形状之间的距离是等效的
回复

使用道具 举报

 楼主| CS小新手想上岸 2022-11-24 14:56:20 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (2)
 
 
0% (0)    👎
zhouxf53 发表于 2022-11-24 12:06
是否不适合用KNN 反而用k means会好一点

这就是我之前的回答呀,直接抛弃KNN用decision tree或者bayes ...

好的  另外,在研究decision tree , random forest ,最后似乎需要一个分类结果作为特征,例如:是否、对错、好坏,但从原始资料好像找不到一个可以设为二分法的特征。有这样的情况如何解决呢?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表