没结婚也能买房啊!大波士顿地区买房小tips

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推多家公司面试
[Google级团队]:实时大数据分析领域践行者
北京/深圳-大数据/搜索/机器学习职位
日志易机器大数据行业践行者Web/大数据/机器学习等职位-北京or深圳
把贵司招聘信息放这里
查看: 1284|回复: 2
收起左侧

[其他]  如何it-ebooks里下载的编程电子书里烦人的水印

[复制链接] |试试Instant~ |关注本帖
Linzertorte 发表于 2014-6-8 15:29:01 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
在谷歌直接搜一些计算机类书籍pdf 经常会找到下面这个网站。
http://it-ebooks.info/里面有许多好资源。

比如head first Java. Head first design pattern. Django development. Algorithms.. etc
但是这个网站的书都在页尾加了水印,颜色很亮。看起来很烦人。以下图为例。



hd.jpg



那么有什么方法去掉呢?
1. 我们可以用 pdf editor手动去除,比如用foxit pdf editor。但是要一页一页地去除。


这里我直接用emacs 要打开了这本书。

e1.jpg


然后几经试验。发现一个规律

e2.jpg


这是搜索it-ebook找到的一行。这行字出现了200多次吧。 然后我删除掉。再打个,发现第一页水印文字不见了。

不过点原来的位置,链接还是存在的。大多数情况下,文字不见也就好了。但是楼主有点强迫症。

e3.png


这个14940 0 obj  到 end obj 定义了一个超链接。 感觉像html里的ancher <a href="http://www.google.com"> Google</a>这样。

然后把这个13行的block去掉。 链接也去掉了。不会自动跳到网站。。

如果emacs用多一点。用两次正则表达式替换就能把所有页的水印及其链接去掉。

不过手写那个13行的下则表达式还是有点烦。



这个时候。python comes to the rescue.

单行的那个文字可以直接ignore.
但是那个13行的block如何在你匹配到那个URI http//www.it-ebook.info然后把前面的9行以及后面的三行一起ignore这是一个问题



大家都在刷CTCI里面有一个用C++输出文件的最后K行。要求one pass.作者给了一个用循环队列的方法。

这个在这里可以借鉴。

然后现在试了好几本,发现都可以成功地去掉水印。

e4.jpg


我先不提供代码了。感兴趣的同学可以自己写写看

评分

3

查看全部评分

小K 发表于 2014-6-12 02:56:17 | 显示全部楼层
我完全都没有注意到过这行插入。。。。

楼主试试libgen
回复 支持 反对

使用道具 举报

newsam 发表于 2014-6-16 23:34:45 | 显示全部楼层
autoit 也可以,不过速度慢点
回复 支持 反对

使用道具 举报

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-4-22 01:27

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表