功能:
1.对网站中的所有链接进行爬取
2.判断是否为外站链接,进行过滤
3.自动消除完全一样的重复链接
4. 判断是否为动态链接,超过两个以上,进行过滤
目前测试下来,公司网站爬下来的时间在6-8秒内(跟网速也有一定关系)
后续仍需完善的功能:
1.将爬取的URL存入数据库
2.处理首页自动跳转网站的爬取
3.处理各类奇葩网站的URL
4.处理如新浪之类大型门户网站的动态链接“http://www.sina.com.cn/license/map2011.html”
5.增加爬取深度选择选项
6.多线程爬取,提升性能