一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 843|回复: 2
收起左侧

[其他]  如何it-ebooks里下载的编程电子书里烦人的水印

[复制链接] |试试Instant~ |关注本帖
Linzertorte 发表于 2014-6-8 15:29:01 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
在谷歌直接搜一些计算机类书籍pdf 经常会找到下面这个网站。
http://it-ebooks.info/里面有许多好资源。

比如head first Java. Head first design pattern. Django development. Algorithms.. etc
但是这个网站的书都在页尾加了水印,颜色很亮。看起来很烦人。以下图为例。



hd.jpg



那么有什么方法去掉呢?
1. 我们可以用 pdf editor手动去除,比如用foxit pdf editor。但是要一页一页地去除。


这里我直接用emacs 要打开了这本书。

e1.jpg


然后几经试验。发现一个规律

e2.jpg


这是搜索it-ebook找到的一行。这行字出现了200多次吧。 然后我删除掉。再打个,发现第一页水印文字不见了。

不过点原来的位置,链接还是存在的。大多数情况下,文字不见也就好了。但是楼主有点强迫症。

e3.png


这个14940 0 obj  到 end obj 定义了一个超链接。 感觉像html里的ancher <a href="http://www.google.com"> Google</a>这样。

然后把这个13行的block去掉。 链接也去掉了。不会自动跳到网站。。

如果emacs用多一点。用两次正则表达式替换就能把所有页的水印及其链接去掉。

不过手写那个13行的下则表达式还是有点烦。



这个时候。python comes to the rescue.

单行的那个文字可以直接ignore.
但是那个13行的block如何在你匹配到那个URI http//www.it-ebook.info然后把前面的9行以及后面的三行一起ignore这是一个问题



大家都在刷CTCI里面有一个用C++输出文件的最后K行。要求one pass.作者给了一个用循环队列的方法。

这个在这里可以借鉴。

然后现在试了好几本,发现都可以成功地去掉水印。

e4.jpg


我先不提供代码了。感兴趣的同学可以自己写写看

评分

3

查看全部评分

小K 发表于 2014-6-12 02:56:17 | 显示全部楼层
我完全都没有注意到过这行插入。。。。

楼主试试libgen
回复 支持 反对

使用道具 举报

newsam 发表于 2014-6-16 23:34:45 | 显示全部楼层
autoit 也可以,不过速度慢点
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-8 18:26

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表