主题:【求助】求能自动抓取网站内容的软件 -- 渡泸
用PHP/CURL库。不过价格就比下面说的50元高多了。
还有一种方法是找人帮你手工抓信息。
使用软件抓信息叫做 Web Scraping。
http://www.freelancer.com/projects/by-job/Web-Scraping.html
手工抓信息叫做 Data Entry。
http://www.freelancer.com/projects/by-job/Data-Entry.html
如果你在国外,可以试试 freelancer.com。
如果你在国内,可以百度“威客”,很多外包网站提供这类服务。
另外,你还可以试试Firefox下的一个免费插件……iMacros。
如果网站结构简单,用iMacros可以很快写出脚本,自动运行。
https://addons.mozilla.org/en-US/firefox/addon/3863/
另外,还有些现成的软件可以抓email、电话号码什么的。Google "scraping software",或者到天空软件、华军软件、download.com 搜索“scrap”。
如果你想学 scraping 编程,可以参考 "Options for HTML scraping?"
o Beautiful Soup
o lxml
* Ruby
o Hpricot
o scrAPI
o scRUBYt!
* .NET
o Html Agility Pack
o WaitiN
* Perl
o WWW-Mechanize
o Web-Scraper
* Java
o Tag Soup
* PHP
o htmlSQL
离线浏览就是把网页都下载到硬盘,并且复制网站结构。天空软件、华军软件、download.com 可以搜到很多这类软件。
Web Scraping 的第一步就是下载网页,第二步就是从中解析出你需要的信息。Data Entry 的第一步是浏览网页(其实就是下载网页),第二步是手工copy&paste你需要的信息。
这就去学习一下。花上!
这个需要一点儿ruby脚本的知识,如果你有兴趣的话就好办了。
环境的准备包括:
1.安装ruby186-26
http://rubyforge.org/frs/download.php/29263/ruby186-26.exe
2.安装rubygems 1.3.7
http://rubyforge.org/frs/download.php/70697/rubygems-1.3.7.zip
打开命令行,进入rubygems解压后的目录,运行ruby setup.rb.
3.安装firewatir
打开命令行,运行gem install watir
4.安装Firefox插件jssh
http://wiki.openqa.org/download/attachments/13893658/jssh-3.6-WINNT.xpi
环境准备好后可以写一些很简单的Ruby脚本来模拟网站交互以及抓取信息。
具体可以查看http://watir.com网站的相关文档。
这就去学习。花上!
这几天消化一下大家提供的信息。非常感谢!
这个就得有点编程的自己做个程序,直接向服务器发http request, 然后到输出中抓关键字存在文件中。
要是不会的话,找个朋友帮忙吧,非常简单,10分钟搞定的小程序。
罗杰兄很热心,帮我写了个程序,还帮我远程调试好,非常好用。
再次感谢罗杰兄!
上周我给人搞过类似的程序
要提取国药名录大全
1万多页/16万的条目
网页在:http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=国产药品&bcId=124356560303886909015737447882
我的代码在:http://bbs.csdn.net/topics/390588439
你可以找人改用 VBS 脚本
很简单的
希望有用
不客气
如果不牵涉到机密
你把你的网站地址私信我或公布一下
我试试看用 DOS 或 VBS 做一下
不需要再装其他软件
把你的资料提取出来
也是免费的
这个是 2010年的陈年老帖
谁翻出来考古呀
帖是考古帖,不过被考古的人还在呀