搭建GuozhongCrawler开发环境有两种方式。
1、构建源码项目方式
一、首先下载源码或者jar包
源码在github:https://github.com/CreditTone/GuozhongCrawler。如果网速或者不能访问github可以访问开源中国的git地址:http://www.oschina.net/p/guozhongcrawler。
读者可以用git工具checkout下载。这里我们就直接选择以下载方式了。
解压Crawler-master.zip,如果在开源中国git下载的zip名字略有不同。
解压后如下:
二、下载下来后我们打开Eclipse。新建一个空的javaProject。选择新建Java Project。项目名字这里使用GuozhongCrawler。点击finish。
三、把src下的源码和libs目录拷贝到项目中。并且展开libs目录全选所有jar右击build Path--》Add to Build Path。
完成后如图:
四、再新建一个空java项目,这个作为你的爬虫项目。这里取名为GuozhongCrawlerImpl。
如图:
五、右击GuozhongCrawlerImpl选择中Properties--》Java Build Path--》选中Projects选卡--》Add--》选中GuozhongCrawler--》点击OK--》点击OK。
如图:
六、在GuozhongCrawlerImpl中新建一个类命名为HelloGuozhong。生成main方法。并且贴入如下代码。
CrawlTask crawlTask =
new
CrawlTask(
"百度新闻任务"
);
CrawlManager.prepareCrawlTask(crawlTask)
.withStartUrl(
"http://news.baidu.com/"
)
.addPageProccess(
new
PageProcessor() {
@Override
public
void
process(OkPage page, StartContext context,
List<Proccessable> result)
throws
Exception {
Document doc = Jsoup.parse(page.getContent());
System.out.println(doc.select(
"title"
).text());
}
@Override
public
void
proccessErrorPage(Page page, StartContext context)
throws
Exception {
}
@Override
public
String getTag() {
return
null
;
}
@Override
public
Pattern getNormalContain() {
return
null
;
}
@Override
public
PageScript getJavaScript() {
return
null
;
}
})
.start();
七、运行HelloGuozhong。出现如下提示说明运行成功。
13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取
13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/ Code:OK 百度新闻搜索——全球最大的中文新闻平台13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务2、通过加入Jar库方式搭建开发换
目前jar包只有在开源中国git库中有提供。当然也可以自己编译源码项目得到。
开源中国git:地址.http://git.oschina.net/woshidaniu/GuozhongCrawler
下载后直接将GuozhongCrawler.jar加入项目的build Path中即可。
重复第六、七步骤出现如下信息说明搭建成功。
13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取
13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/ Code:OK 百度新闻搜索——全球最大的中文新闻平台13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务