标题:
[交流]
哪位仁兄有兴趣研究下google books 的下载?
[打印本页]
作者:
寄托天下
时间:
2008-8-30 22:40
标题:
哪位仁兄有兴趣研究下google books 的下载?
有个人已经搞出来了,来自网上读书论坛,theworld能否透过插件形式做出呢?
以下是软件介绍:
本软件的原理,就是模拟人使用IE等浏览器看的过程,从服务器下载有预览的每一页,保存到本地、使用方法很简单,你从google books上搜某本书,打开页面,然后运行下载器,在提示窗口里输入那本书的url,或者只输入这个url里边的12位像乱码一样的book ID,或者浏览到以前下载的某本书的保存目录,程序会从中找到book ID。然后下载器就会抓取这本书的页面,分析内容,找到有预览的每一页的信息,然后再去抓每一页。把能抓的都抓下来之后(图像文件,通常为jpeg或png格式),保存到以书名命名的一个目录里。下载完成后,下载器会把这些图像文件合并到一个大pdf文件,并且生成以原书的页码命名的书签(个别书,由于google没有提供title,不能生成书签)。
软件比较大(接近8M),因为pdf库很大
注意事项:
1. 只能下载 books.google.***上标明了“有限预览”的书
2. 不同的书,google books提供了不同比例的预览,比如有的计算机书,80%的页都能预览;但社科的书,可能只有10%有预览。本软件只能下载允许预览的页面。
3. google books对于每个用户(准确的说,是IP)每天“浏览”量做了限制,以前是50多页,现在似乎增加到了100多页。每次下载,超过这个值,就不能再下载了,这时候有3种办法:
(1) 过半天再下载;
(2) 换ip(如adsl重新拨号)。
(3) 在达到限制后出现的提示对话框中,选择不同的google 站点或使用代理。
4. 每次看一本书时,在可以预览的页里,google books会随机删掉一些页,所以本次没有下载的页,下次可能就能下载了。一本书,我一般会反复下载4、5次,才能下全。也可以用上面3.3的办法,换国家的域名试试。
5. 已下载的书的保存目录里,有一个xxxxxxxx.log文件,xxxxxxxx就是book ID. 程序启动时,浏览到此目录就可获取book ID。
下载地址(请右键另存):
http://www.psychoanalyze.cn/googlebook.rar
运行后,会提示8位机器号
作者:
needed
时间:
2008-8-31 07:29
光猪啊..
以前不是写过么..
欢迎光临 世界之窗论坛 (http://bbs.theworld.cn./)
Powered by Discuz! 7.2