主题:多少西河精华贴,尽入谁家囊中 -- 苦夜
网络文摘程序ScrapBook操作(入门篇)
【引子】
受taso河友善举虽远必诛医学系列帖子pdf版下载(2008-12-05)感召,也有应于河里【求助】哪位朋友能推荐一款好用的网页文字抓取工具?(2008-02-23)、【求助】请问,西西河的页面为什么无法保存?(2008-10-02) 的问题,俺打算整整关于网络文摘方面的应用心得。屋外天寒地冻,屋里下河找宝,这么休年假似乎也是不错选择。
花顶钦佩河友taso善举之余,感慨同生。用网页快照来收集整理虽远的西河大作,估计工作量不会太少。真希望虽远兄弟能有机会见到这般代表西河沉默大多数态度的善举,当然也奢望河中他日还会有虽远兄弟的文字再现。
为寻找适合自己收集西河精华文章的软件,俺花费过半个月以上时间,来摸索学习(过去工作中不太注意知识管理)。等俺这边刚理点头绪来,虽远兄弟那边就已经一堆"del"甩出去了,俺硬盘里的只存着关于电脑坐姿方面的一幅小图。心里的那个可惜劲,现在还能体会到。(勤做笔记才是好习惯啊!)
【前注】
入门教程的阅读对象:
(1) 有FireFox经验者;(试过FF后还继续用IE的,估计不满足下一条)
(2) 有FirFox插件经验者;(啥子add-ons,俺可不是IT的)
(3) ScrapBook经验比俺少的。(河里有那么多位熟手,斧头不能多耍)
【目录】
1. ScrapBook插件安装
2. 网络文摘实践
2.2 获取整个页面(点一下,网页内容全存至根文件夹)
2.3 获取网页局部内容(选一下、点一下,选取的内容存至根文件夹)
2.4 制作文章合集(拖两下,文摘合并成文集)
【正文】
1. ScrapBook插件(附加组件)安装
既然是入门篇,那就从门外开始。
1.1 点击菜单“工具”→“附加组件(A)”
(注:附加组件=插件)
1.2 在“获取附加组件”选项输入栏中输入“scrapbook”,搜索结果如图
1.3 点击“添加至 Firefox (A)”按钮,安装附加组件”ScrapBook”,成功安装、重新启动后结果如下图:
此时,FireFox菜单栏中增加“ScrapBook”选项,如下图所示:
FireFox右下角(底部状态栏)中增加图标
恭喜!附加组件(插件)”ScrapBook”安装成功,你的FireFox开始步入DIY行列。
2. 网络文摘实践
2.1 打开”ScrapBook侧栏”,便于检视操作结果,如下图:
(网页为示例老马丁:【原创】感谢保罗.密尔格姆 (一)背景)
2.2 获取整个页面(三种操作方式)
2.2.1A 鼠标操作方式:在鼠标右键弹出窗口内依次选择“ScrapBook” →“获取页面”→“根文件夹”,
则整个页面内容将被摘录保存,左侧栏里将自动增添一个文件名,代表保存到电脑上的网页(网摘)内容。
豆知识:左侧栏就是一个资源管理器的文件夹窗口。
2.2.1B 菜单操作方式:点击FireFox的菜单项“ScrapBook” →“获取页面 Ctrl+Shift+L”
2.2.1C 键盘操作方式: “Ctrl+Shift+L”
2.2.3 阅读已保存的网摘
点击左侧栏中的存档名“老马丁:【原创】感谢保罗.密尔格姆 (一)背景,第1页-西西河”,看看保存在硬盘中的网摘内容质量如何。
看看地址栏(网摘的硬盘保存目录):
文章窗口底部出现所摘录的网页链接地址信息“http://www.ccthere.com/thread/1914184”。你可以点一下试试看。
注:“获取整个网页”的文摘方式,用得并不多,那如何摘取网页的精华内容呢?慢慢看下面步骤。
2.3 获取网页局部内容
2.3.1 用鼠标选择欲摘录的网页局部内容(你习惯用键盘光标选也成)
示例中选择的是楼主贴“感谢保罗.密尔格姆 (一)背景”中的内容。
2.3.2A 鼠标操作方式:在鼠标右键弹出窗口内依次选择“ScrapBook” →“获取所选内容”→“根文件夹”,
则已选择的网页局部内容将被保存,并在左侧栏里自动增添名称。
豆知识:在左侧栏中增添的文件名称为所选局部内容的首行内容,你可以试试把首行的1和笑脸都选上会是啥结果。
2.3.2B 菜单操作方式:点击FireFox的菜单项“ScrapBook” →“获取所选内容 Ctrl+Shift+L”
2.3.2C 键盘操作方式: “Ctrl+Shift+L”
2.3.3 重复运用上述步骤,你可以将老马丁的后续帖子“(二)拍卖”、“(三)前车”分别摘录保存到根文件夹(以获取网页局部内容的方式)。
2.4 制作文章合集
老马丁“感谢保罗.密尔格姆”的三篇帖子分别保存在硬盘,怎么处理一下?
2.4.1 点击“工具”→“合并向导”
2.4.2 在弹出的“管理项目”窗中,将三篇帖子由左侧文件夹窗口拖至右侧的合并向导窗口,点按钮“下一步”、“合并”,则三篇帖子将被合并为一篇,文件名字以蓝色字体表示,类型为“combine”。
豆知识:若选择“合并完成后删除原始页面”,则合并后将从硬盘上删除这三篇帖子。(可以节省硬盘空间)。
2.4.3 回到FireFox,感受一下自己编辑帖子合集的乐趣吧。
豆知识:合集中每篇帖子的链接地址就隐藏在黄色底框的小标题中,点点看。
【结束语】
ScrapBook插件,绿色免费、简便好用,实在是上网抓字、下河捉虾的必备工具。(“含笑半步颠”?)
入门篇至此,相信可以据此开始简单编辑一些西河精华贴的合集了,保存到自己硬盘上,感觉要踏实一些。
自打学习了如何做网摘之后,俺用得最多的就是ScrapBook,虽然操作非常简单,但至今也还未用尽全部功能。
关于“ScrapBook操作的提高篇”留待下回书再表。
(Google Picasa的图片外链有宽度尺寸限制,帖子来回改动数次不得要领,唯有现学如何将图片改存windows live。)
本帖一共被 1 帖 引用 (帖内工具实现)
您是在做大好事啊!
天寒地冻冰雪地,清心静脑好读书……
这东西也太强大了啊。
注:以下信息均据西河搜索、google搜索结果列出,并不保证准确概全。
(1)众河友对ScrapBook的推荐
无所事事:【推荐】一些其它的 Firefox 扩展与主题(2006-10-29)
冀明:可以放狗去找一个叫teleport pro的东西(2008-06-29)
landkid:【原创】具体工具介绍及其优缺点:(2008-08-29)
河友tm2920 常用的Firefox插件包含ScrapBook
山远空寒:【原创】会议记录:清流议政之:西西河与搜索 (请补充)(2008-10-27)
再加上河友sisyphus,ScrapBook的数据上G了。(俺总共才用了俩月时间,数据全部也就百兆)
估计还有。。。。。。
(2)关于FireFox插件帖子
(3)关于河友编辑的西河文集(部分)
不爱吱声:【索引】西西河网文精选/ 历来期刊、
landlord: 【西河名帖收藏】镇河之宝(070503版);
本帖一共被 1 帖 引用 (帖内工具实现)
我也用过两年, 后来发现有一些小问题, 就换成evernote了.
主要的问题是:
1.数据存在本地硬盘,无法多台机器共用或与他人分享.它有个box.net的插件,不过速度慢而且同步操作比较复杂.
2.数据的组织形式是按目录树形组织的,每篇文章只能规定唯一的目录,不如用Tag组织灵活.
后来我就换成在线笔记系统.除了evernote,google notebook用的人也不少. 因为Evernote还支持iphone,我就选了Evernote.
苦夜兄也可以试试在线工具,愚以为这是将来发展的趋势.Scrapbook是几个日本人搞的,东西做的很精致实用,但是也有日本人不够有远见,商业化能力不足的缺点.
换笔记系统的成本很高的,我还有上G的Scrapbook数据躺在硬盘里.最近比较忙,没有时间写个程序把它转出来,只能让它接着睡了.
本帖一共被 1 帖 引用 (帖内工具实现)
最后还是换回IE浏览器。唉!
需要时,改回使用FF!!
不过平时,IE7.0挺好用的。
先感谢sisyphus兄弟热心指教。
俺才体会到ScrapBook数据转换的头痛之处,不知道去哪儿找个啥办法,能对变更了的数据做个同步更新啥的,当然还是不敢太奢望在线更新的。
俩月前刚会用ScrapBook时,俺有过一个河中发言同感!说点关于精华帖收藏的最新心得。现正在写详细体会,也争取让内容充实一些。
感觉上关于小工具程序应用介绍方面的知识,实在是不值得专业人士来落笔的,留给俺这样的门外汉赚点花宝却是正好。业内人能给予点评述,会让俺的帖子生辉不少的,正如sisyphus兄弟这般。
的确是个很好的插件。配上cleanhide这个插件,可以清除隐藏的链接文字。
一直听说了Scrapbook的大名,但没研究过到底怎么用。拜托楼主的详文,终于学会了。另外,推荐另一个插件,Aardvark,配合Scrapbook一起用。
Scrapbook,最好用的功能就是保存整个页面。但是这样把其他你不想要的也保存了,例如右边的广告,其他人的回帖等。当然,你也可以选取你想要的部分来保存。可是,选取可是一个细致且艰苦的活。经常是帖子如果比较长,超过一屏的话,选了上半部,掉了下半部,或者相反。
选取的工作,让Aardvark来做的话,就非常轻松了。从工具菜单里,点击启动Aardvark。把光标移到你想保存的部分,会出现一个红色边框,框里的内容就是Aardvark要抓取的内容。如果还不是你想要的,敲h键。在左边会出现了帮助对话框,列出了快捷键。按这些快捷键,直到红色的边框框住了你想要的内容,再按i键。现在世界清静了。关闭帮助对话框,按q键退出Aardvark,红色边框消失。最后用Scrapbook保存整个页面即可。
同样,打印页面也可以如此处理。这样,可以只打印你想要的部分。
ScrapBook程序的开发者是五味渕 大賀(Gomibuchi Taiga),在FireFox Add-ons上的名字是Gomita,对应汉字应该就是“五味大”了,也不知道咋想的,啥名也比“味儿大”好听啊。
2004年,“味儿大”还在东京工业大学human system science系(没搞明白这是个啥专业,似乎是有点类似教育技术学的交叉学科)室田实验室读硕士的时候开发了ScrapBook,可以肯定不是这家伙的私人产品,因为2005年3月他的硕士毕业论文的题目就是《基于网络的信息收集与共享系统的开发与评价》。
“味儿大”毕业后留校了,继续做ScrapBook程序的开发升级工作(有点羡慕鬼子的就业安排了,美啊!)。这“味儿大”自打毕业那时和室田导师发表过一篇会议论文之后(和毕业论文内容差不多),就再也不见发文章了,估计已经沦落成程序员或者资料分析员了。
FireFox Add-ons网页上ScrapBook的最早版本记录是:Version 0.12.0 — December 17, 2004 — 88 KB,Works with: Firefox: 0.9 – 1.0。
ScrapBook最早的荣誉也就是在2005年4月份某日的”New York Times”刊登了比火柴盒大不了多少的一小块的介绍(也不知道是不是打广告的);被大家日渐认可是后来的事情了。
至今,这个室田实验室的研究课题之一还是和“味儿大”的毕业论文题目差不多的东西。只不过ScrapBook程序只是第一步,人家还开发了一个小范围使用的数据共享系统(ScrapBookPlus+服务器PHP程序),可以实现对ScrapBook收集来的资料的共享,想想鬼子个个都可以做间谍的秉性,如果哪天全球这上百万套安装了的ScrapBook程序成了鬼子的情报收集站,俺也没啥奇怪的。(俺比较奇怪的是,鬼子做了个这么不错的东西,对全世界公开不说,还不断改进升级,而且还不是私人行为,有点不是鬼子秉性啊!小人他一下先。)
先继续用着“味儿大”的ScrapBook,也不耽误继续鄙视小鬼子。
最后,看看鬼子推销ScrapBook的努力。(俩母狐加仨小狐,不知道墙上抱球的那个是啥狐)
链接在这儿:http://www.youtube.com/watch?v=RxnFZ4KwLV4
本帖一共被 1 帖 引用 (帖内工具实现)
网络文摘程序ScrapBook操作(提高篇)
【前注】
网络文摘程序ScrapBook的基本功能就是保存(获取)网页内容(Web Page Capture),附加功能都是为配合基本功能而做的扩展。作为一个小工具,ScrapBook界面简洁、操作方便、功能不弱,堪称上品,而且虽为免费程序,但作者的升级改进并不懈怠,下载次数超过了180万次。
ScrapBook操作(入门篇)中只涉及了网页保存(获取)、网页片段保存、合并文件方面的最简单操作,(俺自己用电脑的一贯做法都是先从别人那里学点现成入门知识,会点简单操作,也就减少了对新技术的恐惧,再提高也会有动力)。本编作为提高篇,不多涉及操作步骤,将以介绍程序功能为主。
ScrapBook主页上介绍的主要功能:
(1) 保存网页
(2) 保存网页片段(snippet)
(3) 保存网站(深层链接)(In-depth Capture)
(4) 管理收集的网页(类似于书签树的侧边栏收藏夹)
(5) 荧光笔、橡皮擦等页面编辑功能
(6) 全文搜索和快速过滤查寻
(7) 笔记便签功能(类似于Opera的Notes)
【重点内容】
“编辑工具条”内容介绍;
强大的获取保存功能介绍;
检索功能;
笔记便签功能;
常用工具选项。
【正文】
在介绍保存(获取)网页内容的功能之前,先做辅助说明。
1. 树状结构文件夹
ScrapBook以树状文件夹方式在侧边栏中来显示管理已保存的网页(以下称之为“网摘”)。
1.1 建立新文件夹
新建的文件夹位于当前所选择文件夹的下一级。
1.2 删除文件夹
点击鼠标右键菜单中的“删除”项即可删除选中的文件夹及其中的网摘页。
(豆知识:文件夹、“网摘”的移动,都可通过鼠标拖拽来实现。
2. 使用“编辑工具条(Edit Toolbar)”编辑网页
点FireFox状态栏最右下角的
2.1 荧光笔(Highlighter)(也称Mark笔)
选取网页(或网摘)中的文字后,点此按钮,则以高亮显示标注出重点内容。荧光笔颜色可以在工具选项中自定义。
(豆知识:删除荧光笔高亮显示的方法有二:一是用
2.2 橡皮 (Eraser)
选取网页(或网摘)上的内容片段后,点此按钮,则删除所选内容。
2.3 DOM橡皮(DOM Eraser)
选中按钮后,单击网页上的元素可以将该部分按对象删除(有红框出来划片显示)。
DOM (Document Object Model): xml/html文档结构的对象模型
(注:
2.4 Undo按钮
不小心的操作,可以恢复。
2.5 存盘按钮(Save Changes)
新网页的场合下,点此按钮,等同于“获取网页为(Capture Page As…)”选项,有对话框弹出。
应用于已保存的网摘页面时,点此按钮,则仅为“保存”,无对话框弹出。(ScrapBook不提供自动保存功能)
2.6 创建即时贴按钮(Sticky Annotation)
点此按钮,在页面上加个半透明的即时贴。(选择一定网页内容,再创建即时贴的效果会不同,自己试试。)
另外包含三个功能:
(1) “为所选内容附加链接(Attach Link to Selection)”
(2) “为所选内容附加文件(Attach File to Seclection)(仅网摘页面可用)”
(3) “为所选内容添加提示(Add Inline Annotation to Selection)”:有提示的文字会被划波浪线,也像划重点。
2.7 “与侧栏列表同步”按钮(Locate in Sidebar Tree)
页面在侧栏列表中的位置定位(这功能也就是打开了无数网摘页面,找不到哪个是那个了时候才有用)。
2.8 展开注释区按钮(Expand Comment Area)
给当前页面所加的注释,写在
(豆知识:在保存好的网摘页面中,可同样使用上述编辑工具;)
3. 强大的获取保存功能
一般浏览器自身也具备网页保存功能, ScrapBook的强大之处在于其简单有效的页面编辑功能,利用“编辑工具条”的工具可对网页内容进行前期加工剪辑处理,最终只保存需要的内容,减少了无用知识对资源和时间的占用。
3.1 获取网页/网页片段(Capture Web Page/Capture Selection)
复杂的ScrapBook网页获取方式就是将经过剪辑的网页(或选取的片段内容)保存至相应的文件夹,对细节的控制将依靠“详细信息”窗口(该窗口在选择“获取页面为…(Capture Page As)”/“获取所选内容为…(Capture Selection As)”时会弹出)。
(1) 标题:可自定义。
(2) 文件夹:
(3) “选项”:表示是否保存网页中的图片(Images)、样式(Styles)、JavaScript内容。程序作者并不建议选择JavaScript。
(4) “下载链接的文件(Download linked files)”项,表示是否保存网页中文件链接所指向的文件。(可以帮助实现脱机阅读)
(5) “深层获取(In-depth Capture)”项,通过设定“获取链接层数(Depth to follow links)”,可以实现保存网站的功能。(个人看法:下载一个网站到硬盘上,并不意味着知识管理会更加有效)
3.2 获取链接(Capture Link)
保存链接所指向的内容:(1)将光标放在链接处,点鼠标右键菜单中的“获取链接(为)”;(2)也可用鼠标直接将链接拖拽至侧边栏。
3.3 获取文件(Capture File)
对于FireFox中打开的PDF、FLASH、XML文件,直接应用“获取页面(为)”即可保存相应文件。
3.4 获取图片(Capture Image)
可以直接将网页中的图片用鼠标拖拽至侧边栏保存。
3.5 获取框架(Capture Frame)
鼠标置于框架内时,鼠标右键菜单ScrapBook项中将会出现“获取页面(为)”、“获取框架(为)”四个选择。
3.6 获取全部标签页(Capture All Tabs)
在FireFox的”ScrapBook”菜单中点选,可以一次保存浏览器中打开的全部网页。
3.7 多链接获取(Capture Multiple URLs)
“工具”选项中的功能之一,在弹出窗口中输入多个URL网址,可一次性保存。(功能与“获取全部标签页”相似)
3.8 重新获取(Capture Again)已有的网摘页
光标放侧边栏的网摘页上,在鼠标右键菜单中选择“工具”→“重新获取”,则将弹出“详细信息”窗口,可以重新定义链接层数等选择,重新下载并覆盖当前网摘页。
3.9 加入ScrapBook书签(Bookmark with ScrapBook)
需在“工具”→“选项”中,选定“显示‘Bookmark with Scrapbook’菜单”项,鼠标右键菜单中方会出现该命令。
此项命令可将网页以书签方式保存至侧边栏树状文件夹中,以绿色表示,但并不保存网页内容。
4. 检索功能
多层树状结构文件夹的应用,已有助于知识分类检索。再通过检索条的检索,基本可以胜任知识管理的需求了。
ScrapBook的检索有多种方式,一般用到全文检索也就足够了。
5. 笔记便签(Writing Notes)
与Opera的Notes功能相似(俺没用过Opera啊),应该都是做点个人笔记啥的。
笔记便签保存在侧栏文件夹中,支持text/HTML编辑,支持ScrapBook的全文检索。
6. 常用的“工具”选项
6.1 合并向导(Combine)
参见(入门篇)中的介绍。
6.2 导入和导出(import/Export)
ScrapBook在数据传递方面的功能设计并不是很强,不同电脑间数据传递的最可靠方式就是“先导出数据、再导入”,程序本身不提供在线同步的功能。
6.3 Multi-ScrapBook功能
如果保存的资料数量、文件夹数量都日益增大的话,Multi-ScrapBook功能就派上用场了。
侧边栏中树状文件夹里的所有资料都保存在一个资料库中(暂且这么说),在硬盘上有对应的文件夹;Multi-ScrapBook就是多重资料库的意思,每个资料库对应的是硬盘上的一个文件夹;可以很方便的选择切换管理资料库。
剩余功能,将不再赘述,留待大家熟悉操作之后自行摸索。
可参考ScrapBook主站、ScrapBook 1.2 (& Add-ons) Tutorial (PDF Format, 692 KB)( by Andrew Giles-Peters.)
【总结】
ScrapBook作为一种网络文摘工具,虽然也还存在一定的功能局限,如资料不可以在线同步、数据转换不算便捷、未提供Tag分类等,但作为个人知识管理的工具,其主要功能还是非常高效实用的。
对于我们来说,只有最合适自己的工具,永远不会有最好的工具。
西西河telpro和OE都抓不下来。试了试scrapbook,多链接获取也都不成功