仓酷云

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 587|回复: 9
打印 上一主题 下一主题

[学习教程] 了解下JAVA的Webharvest收集爬虫使用总结

[复制链接]
莫相离 该用户已被删除
跳转到指定楼层
楼主
发表于 2015-1-18 11:19:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
在ruby里才是一切皆对象。当然我不并不是很了解ruby,但是ruby确实是将语法简化得很好。
Web-Harvest是一个Java开源Web数据抽取工具。它可以搜集指定的Web页面并从这些页面中提取有效的数据。实在现道理是,依据事后界说的设置文件用httpclient猎取页面的全体内容(关于httpclient的内容,本博有些文章已先容),然后使用XPath、XQuery、正则表达式等这些手艺来完成对text/xml的内容选择操纵,拔取准确的数据。前两年对照火的垂直搜刮(好比:酷讯等)也是接纳相似的道理完成的。Web-Harvest使用,关头就是了解和界说设置文件,其他的就是思索怎样处置数据的Java代码。固然在爬虫入手下手前,也能够把Java变量添补到设置文件中,完成静态的设置。
如今以爬取天边论坛的一切版面信息为例,先容Web-Harvest的用法,出格是其设置文件。
天边的版块舆图页面时:http://www.tianya.cn/bbs/index.shtml

[天边的部分版面列表]
我们的方针就是要抓取全体的版块信息,包含版块之间的父子干系。
先检察版块舆图的页面源代码,追求纪律:
<div class="backrgoundcolor">
<div class="bankuai_list">
       <h3>社会平易近生</h3>
       <ul>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml" id="item天边杂谈">天边杂谈</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml" id="item国际察看">国际察看</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml" id="item天边时空">天边时空</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml" id="item传媒江湖">传媒江湖</a></li>
              …… //省略
</ul>
</div>
<div class="clear"></div>
</div>
<div class="nobackrgoundcolor">
<div class="bankuai_list">
       <h3>文学念书</h3>
              <ul>
                     <li><a href="http://www.tianya.cn/techforum/articleslist/0/16.shtml" id="item莲蓬大话">莲蓬大话</a></li>
                     <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml" id="item煮酒论史">煮酒论史</a></li>
                     <li><a href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml" id="item舞文弄墨">舞文弄墨</a></li>
                     …….//省略
              </ul>
</div>
<div class="clear"></div>
</div>
…….//省略
<p>
但是对于JAVA技术类的学习,我觉得大课堂反而会影响自身独立思考的过程,因为上课的时候,老师讲课的速度很快为了不遗漏要点,通常会仔细的听,
精灵巫婆 该用户已被删除
沙发
发表于 2015-1-20 20:20:07 | 只看该作者
是一种为 Internet发展的计算机语言
板凳
发表于 2015-1-29 20:42:23 | 只看该作者
Java是一个纯的面向对象的程序设计语言,它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针(以引用取代)、运算符重载(operator overloading)
冷月葬花魂 该用户已被删除
地板
发表于 2015-2-5 04:52:26 | 只看该作者
当然你也可以参加一些开源项目,一方面可以提高自己,另一方面也是为中国软件事业做贡献嘛!开发者在互联网上用CVS合作开发,用QQ,MSN,E-mail讨论联系,天南海北的程序员分散在各地却同时开发同一个软件,是不是很有意思呢?
飘灵儿 该用户已被删除
5#
发表于 2015-2-9 14:10:56 | 只看该作者
你现在最缺的是实际的工作经验,而不是书本上那些凭空想出来的程序。
乐观 该用户已被删除
6#
发表于 2015-2-11 19:51:28 | 只看该作者
不过,每次的执行编译后的字节码需要消耗一定的时间,这同时也在一定程度上降低了 Java 程序的运行效率。
若相依 该用户已被删除
7#
发表于 2015-3-2 17:25:23 | 只看该作者
还好,SUN提供了Javabean可以把你的JSP中的 Java代码封装起来,便于调用也便于重用。
兰色精灵 该用户已被删除
8#
发表于 2015-3-11 20:35:07 | 只看该作者
Java是一个纯的面向对象的程序设计语言,它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针(以引用取代)、运算符重载(operator overloading)
小妖女 该用户已被删除
9#
发表于 2015-3-13 07:07:15 | 只看该作者
关于设计模式的资料,还是向大家推荐banq的网站 [url]http://www.jdon.com/[/url],他把GOF的23种模式以通俗易懂的方式诠释出来,纯Java描述,真是经典中的经典。
小女巫 该用户已被删除
10#
发表于 2015-3-20 15:38:42 | 只看该作者
是一种语言,用以产生「小应用程序(Applet(s))
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|仓酷云 鄂ICP备14007578号-2

GMT+8, 2024-6-3 11:03

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表