《数据科学面试40+真题讲解》,K神本年度最后一次开课


一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推你去多家公司面试
Airbnb 数据科学职位
in analytics and inference
天天打游戏、照样领工资,
你要不要来?
把贵司招聘信息放这里
查看: 994|回复: 4
收起左侧

[其他] 急!关于数据库检索效率优化的问题

[复制链接] |试试Instant~ |关注本帖
LzhJeremy 发表于 2016-4-6 05:04:47 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x

最近在公司用Node JS 做网站后台功能,需要关联三张表然后返回所有满足条件的image信息的list,由于程序发布的远端PC配置比较渣,在进行复杂关联检索时,用时比较长,以前数据库在学校学的比较渣,自己确实也不是技术方面的大牛,恳请各位前辈可以给我一些解决建议,自己也可以得到学习,表的具体结构和query如下: 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
table 1:                                                           
image:                                                                                                                     
image_id,       bigint(20) unsigned NOT NULL(PK)                 
image_path,   varchar(512) NOT NULL           
mailpiece_id,  varchar(100) NOT NULL               
scanner_id,    enum('BL','BR','FL')
image_type,   varchar(100) NOT NULL
source_id,      varchar(100) NOT NULL
orientation,    tinyint(3) unsigned NOT NULL. more info on 1point3acres.com

table 2 :  
mailpiece:                                                           . more info on 1point3acres.com
mailpiece_key,  bigint(20) unsigned NOT NULL(PK)         
mailpiece_id,    varchar(100) NOT NULL   
tesetset_id,      bigint(20) unsigned NOT NULL
image_path,     varchar(512) NOT NULL                                            
mailpiece_id,    varchar(100) NOT NULL                       .鏈枃鍘熷垱鑷1point3acres璁哄潧

table 3:
redirections:
sortcode,         varchar(100) NOT NULL(PK : sortcode + mailpiece_id)  
mailpiece_id,    varchar(100) NOT NULL
redirection_id,  bigint(20) NOT NULL

. more info on 1point3acres.com
QUERY:
SELECT mailpieces.*, rds.sortcode FROM
鏉ユ簮涓浜.涓夊垎鍦拌鍧.    (SELECT i.* FROM image i JOIN mailpiece USING (mailpiece_id). 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
    WHERE mailpiece_id IN (SELECT mailpiece_id FROM redirections)
    AND testset_id = 51 AND (mailpiece_key - 1) % 1 = 0) mailpieces INNER JOIN redirections rds USING (mailpiece_id);.鐣欏璁哄潧-涓浜-涓夊垎鍦

. visit 1point3acres.com for more.如果有什么描述不清楚的地方麻烦各位留言,我会尽快回复,急!!!谢谢各位!!. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴



鏉ユ簮涓浜.涓夊垎鍦拌鍧.
补充内容 (2016-4-6 05:20):.1point3acres缃
一旦关联表redirections,检索就会变得非常慢,倘若把query 第三行SELECT mailpiece_id FROM redirections 替换成SELECT mailpiece_id FROM sortcodes INNER JOIN sortcode_sequence USING (sequence_id)就会很快

补充内容 (2016-4-6 05:22):
接上面的补充,但是整个检索结果又必须匹配表redirections里面的mailpiece_id,是不是因为这张表的PK是两列合成,如果把mailpiece_id设置成INDEX会不会好一些,恳请大家解答一下
luochen01 发表于 2016-4-6 10:53:57 | 显示全部楼层
有两个建议
一是可以在所有需要join的列上都建立secondary index,例如mailpiece_id,效果应该会好一些
二是可以考虑把SQL里面的IN语句去掉,然后通过semi-join的方式改写 (理论上query optimizer会自动做这件事情,但不知道楼主用的数据库优化到了什么程度) 。。。
回复 支持 反对

使用道具 举报

cccpwx 发表于 2016-4-6 11:58:54 | 显示全部楼层
1. sql里面的IN影响性能,能left join的就不要用IN。
2. 可以使用 exist 和not exist代替 in和not in。
回复 支持 反对

使用道具 举报

 楼主| LzhJeremy 发表于 2016-4-6 12:04:44 | 显示全部楼层
luochen01 发表于 2016-4-6 10:53
有两个建议
一是可以在所有需要join的列上都建立secondary index,例如mailpiece_id,效果应该会好一些
...

谢谢建议,后来我尝试加了secondary index, 把mailpiece_id设置成为后,检索速度瞬间就上来了,还是自己学艺不精,明天去公司了鼓捣一下您说的第二种方法,毕竟更快是好的,十分感谢啊
回复 支持 反对

使用道具 举报

 楼主| LzhJeremy 发表于 2016-4-6 12:06:05 | 显示全部楼层
cccpwx 发表于 2016-4-6 11:58
1. sql里面的IN影响性能,能left join的就不要用IN。. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
2. 可以使用 exist 和not exist代替 in和not in。

好的,谢谢啦,后来把mailpiece_id设置成为secondary index后,检索速度一下子就上来了,明天再按照您的方法进行优化一下,果然还是自己以前没好好学习,十分感谢!!
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-11-24 06:56

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表