主题：【求助】求能自动抓取网站内容的软件 -- 渡泸

共:💬29 🌺40

老大河待整

全看树展主题 · 分页首页上页下页末页

复【求助】求能自动抓取网站内容的软件

家园

做过很多抓取网站信息的小项目

用PHP/CURL库。不过价格就比下面说的50元高多了。

还有一种方法是找人帮你手工抓信息。

使用软件抓信息叫做 Web Scraping。

http://www.freelancer.com/projects/by-job/Web-Scraping.html

手工抓信息叫做 Data Entry。

http://www.freelancer.com/projects/by-job/Data-Entry.html

如果你在国外，可以试试 freelancer.com。

如果你在国内，可以百度“威客”，很多外包网站提供这类服务。

另外，你还可以试试Firefox下的一个免费插件……iMacros。

如果网站结构简单，用iMacros可以很快写出脚本，自动运行。

https://addons.mozilla.org/en-US/firefox/addon/3863/

另外，还有些现成的软件可以抓email、电话号码什么的。Google "scraping software"，或者到天空软件、华军软件、download.com 搜索“scrap”。

如果你想学 scraping 编程，可以参考 "Options for HTML scraping?"

* Python

o Beautiful Soup

o lxml

* Ruby

o Hpricot

o scrAPI

o scRUBYt!

* .NET

o Html Agility Pack

o WaitiN

* Perl

o WWW-Mechanize

o Web-Scraper

* Java

o Tag Soup

* PHP

o htmlSQL

关键词(Tags): #scraping， 通宝推：渡泸,

复老虎手真快

家园

你说的是离线浏览类软件

离线浏览就是把网页都下载到硬盘，并且复制网站结构。天空软件、华军软件、download.com 可以搜到很多这类软件。

Web Scraping 的第一步就是下载网页，第二步就是从中解析出你需要的信息。Data Entry 的第一步是浏览网页（其实就是下载网页），第二步是手工copy&paste你需要的信息。

复做过很多抓取网站信息的小项目

家园

谢谢盒子兄！

这就去学习一下。花上！

复太好了兄弟！在哪里能下载啊？

家园

一些说明

这个需要一点儿ruby脚本的知识，如果你有兴趣的话就好办了。

环境的准备包括：

1.安装ruby186-26

http://rubyforge.org/frs/download.php/29263/ruby186-26.exe

2.安装rubygems 1.3.7

http://rubyforge.org/frs/download.php/70697/rubygems-1.3.7.zip

打开命令行，进入rubygems解压后的目录，运行ruby setup.rb.

3.安装firewatir

打开命令行，运行gem install watir

4.安装Firefox插件jssh

http://wiki.openqa.org/download/attachments/13893658/jssh-3.6-WINNT.xpi

环境准备好后可以写一些很简单的Ruby脚本来模拟网站交互以及抓取信息。

具体可以查看http://watir.com网站的相关文档。

复一些说明

家园

谢谢罗兄！

这就去学习。花上！

复【求助】求能自动抓取网站内容的软件

家园

flashget的 site explorer

复 flashget的 site explorer

家园

谢谢！

这几天消化一下大家提供的信息。非常感谢！

复【求助】求能自动抓取网站内容的软件

家园

编程

这个就得有点编程的自己做个程序，直接向服务器发http request，然后到输出中抓关键字存在文件中。

要是不会的话，找个朋友帮忙吧，非常简单，10分钟搞定的小程序。

复编程

家园

罗杰兄帮我写了个程序

罗杰兄很热心，帮我写了个程序，还帮我远程调试好，非常好用。

再次感谢罗杰兄！

复【求助】求能自动抓取网站内容的软件

家园

我的示例......

上周我给人搞过类似的程序

要提取国药名录大全

1万多页/16万的条目

网页在：http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=国产药品&bcId=124356560303886909015737447882

我的代码在：http://bbs.csdn.net/topics/390588439

你可以找人改用 VBS 脚本

很简单的

希望有用

复我的示例......

家园

谢谢！

复谢谢！

家园

假如可以的话......

不客气

如果不牵涉到机密

你把你的网站地址私信我或公布一下

我试试看用 DOS 或 VBS 做一下

不需要再装其他软件

把你的资料提取出来

也是免费的

复【求助】求能自动抓取网站内容的软件

家园

哈哈，老铁......

这个是 2010年的陈年老帖

谁翻出来考古呀

复哈哈，老铁......

家园

谢谢夜来香兄的帮助！

帖是考古帖，不过被考古的人还在呀

全看树展主题 · 分页首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明