JTidy

开源吧 > JAVA开源项目 > 组件类库 > Html解析类库

JTidy 是 HTML Tidy用Java实现的移植版本，提供了一个HTML的语法检查器和很好的打印功能。类似它的非Java产品，JTidy可以用来清除格式不好和不对的HTM。此外，JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。

【官方主页】

【下载地址】

网友留言/评论

我要留言/评论

相关开源项目

rendersnake: rendersnake是一个用于生成HTML页面的Java开源类库，能够与标准JSP和Spring MVC集成。利用其编写的Java代码具有可维护、易于复用、类型校验、可测试和简单的特点。

jsoup Cookbook中文版: jsoup是一个基于Java的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常便利的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。而且还支持HTML5。是一个非常不错的Java开源项目，为了让更多人使用和了解这个项目。本人发了点时间将其网站提供的Cookbook翻译/整理成中文版。地址：http://www.open-open.com/jsoup

Cobra:Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。

HtmlCleaner:HtmlCleaner是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而，用户可以提供自定义tag和规则组来进行过滤和匹配。

Jericho HTML Parser:Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库，可以分析和处理HTML文档的一部分，包括一些通用的服务器端标签，同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。

HotSAX:HotSAX是一个快速，小型的footprint, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。

TagSoup:TagSoup是一个Java开发符合SAX的HTML解析器.

HTML Parser:HTML Parser实现即时HTML语法分析程序。

Java HTML Parser:HTML Parser提供了一组Tag对象，这些对象可以深入解析一棵可搜索的结构树。

HtmlRipper:HtmlRipper是一个Java包能够按照预先定义好的规则设置来从Web页中抽取动态数据.