博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
GuozhongCrawler开发环境搭建
阅读量:5773 次
发布时间:2019-06-18

本文共 2153 字,大约阅读时间需要 7 分钟。

hot3.png

搭建GuozhongCrawler开发环境有两种方式。

1、构建源码项目方式

一、首先下载源码或者jar包

源码在github:https://github.com/CreditTone/GuozhongCrawler。如果网速或者不能访问github可以访问开源中国的git地址:http://www.oschina.net/p/guozhongcrawler。

读者可以用git工具checkout下载。这里我们就直接选择以下载方式了。

解压Crawler-master.zip,如果在开源中国git下载的zip名字略有不同。

解压后如下:

162558_LkNG_1377701.png

二、下载下来后我们打开Eclipse。新建一个空的javaProject。选择新建Java Project。项目名字这里使用GuozhongCrawler。点击finish。

162211_b6st_1377701.png

三、把src下的源码和libs目录拷贝到项目中。并且展开libs目录全选所有jar右击build Path--》Add  to  Build Path。

完成后如图:

124159_q58v_1377701.png

四、再新建一个空java项目,这个作为你的爬虫项目。这里取名为GuozhongCrawlerImpl。

如图:

124702_BAzi_1377701.png

五、右击GuozhongCrawlerImpl选择中Properties--》Java Build Path--》选中Projects选卡--》Add--》选中GuozhongCrawler--》点击OK--》点击OK。

如图:

125154_tOtj_1377701.png

六、在GuozhongCrawlerImpl中新建一个类命名为HelloGuozhong。生成main方法。并且贴入如下代码。

CrawlTask crawlTask =
new
CrawlTask(
"百度新闻任务"
);
CrawlManager.prepareCrawlTask(crawlTask)
.withStartUrl(
"http://news.baidu.com/"
)
.addPageProccess(
new
PageProcessor() {
     
    
@Override
    
public
void
process(OkPage page, StartContext context,
            
List<Proccessable> result)
throws
Exception {
        
Document doc = Jsoup.parse(page.getContent());
        
System.out.println(doc.select(
"title"
).text());
    
}
     
    
@Override
    
public
void
proccessErrorPage(Page page, StartContext context)
            
throws
Exception {
         
    
}
     
    
@Override
    
public
String getTag() {
        
return
null
;
    
}
     
    
@Override
    
public
Pattern getNormalContain() {
        
return
null
;
    
}
     
    
@Override
    
public
PageScript getJavaScript() {
        
return
null
;
    
}
})
.start();

七、运行HelloGuozhong。出现如下提示说明运行成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取

 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK
 百度新闻搜索——全球最大的中文新闻平台
13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务

2、通过加入Jar库方式搭建开发换

目前jar包只有在开源中国git库中有提供。当然也可以自己编译源码项目得到。

开源中国git:地址.http://git.oschina.net/woshidaniu/GuozhongCrawler

下载后直接将GuozhongCrawler.jar加入项目的build Path中即可。

重复第六、七步骤出现如下信息说明搭建成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取

 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK
 百度新闻搜索——全球最大的中文新闻平台
13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务

转载于:https://my.oschina.net/u/1377701/blog/401298

你可能感兴趣的文章
Windows Server 2003 用户账户的密码和用户配置文件
查看>>
单例模式
查看>>
使用Nginx反向代理 让IIS和Tomcat等多个站点一起飞
查看>>
老旧的金融机构,是时候赶赶云计算的时髦了
查看>>
晶澳向埃及11MW混合发电项目供应光伏组件
查看>>
国产x86 CPU性能达Intel的80%?
查看>>
用友网络陈强兵:企业互联网需解决五大问题
查看>>
SMA推出Powerwall兼容Sunny Boy Storage逆变器
查看>>
云路由 vyatta 体验(二)NAT
查看>>
C++、Java、JavaScript中迭代器的用法
查看>>
jackson not marked as ignorable异常
查看>>
Python version 2.7 required, which was not foun...
查看>>
android 模拟器 横竖屏切换
查看>>
centos7.3 下安装 composer,解决Failed to decode zlib stream错误
查看>>
Git 常用命令
查看>>
在Postgres 数据库中生成36位的UUID代码
查看>>
小黑小波比.功能测试登录用户
查看>>
Java enum用法详解
查看>>
去云端的多条途径
查看>>
Docker容器从一知半解到入门
查看>>