l一年级道德与法治教案:HTML解析器 jsoup

来源:百度文库 编辑:偶看新闻 时间:2024/04/19 13:31:36

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;
  2. 使用DOM或CSS选择器来查找、取出数据;
  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

 

jsoup最新更新资讯,共16条  (投递新闻,查看所有?)
  • 4个月前jsoup 1.6.1 发布,HTML解析器 0评/939阅
  • 5个月前jsoup 1.6.0 发布,支持 HTML5 解析 7评/1485阅
  • 8个月前jsoup 1.5.2 发布,超棒的HTML解析器 4评/1839阅
  • 9个月前jsoup 1.5.1 发布,超棒的HTML解析器 6评/1730阅
  • 12个月前jsoup 1.4.1 发布,超棒的HTML解析器 7评/1573阅
  • 授权协议: MIT
  • 开发语言: Java 查看源码?
  • 操作系统: 跨平台 
  • 收录时间: 2010年01月31日
软件首页软件文档软件下载========================================

jsoup 处理可能怀有恶意的 html 代码

========================================

在做网站的时候,经常会提供用户评论的功能。有些用户比较淘气,会搞一些脚本到评论内容中,这些脚本可能会破坏整个页面的行为,或者更严重的是获取一些机要信息,例如跨站点攻击之类的。

jsoup 对这方面的支持非常强大,非常之简单。

瞧瞧下面的代码:

String unsafe =   "

Link

";String safe = Jsoup.clean(unsafe, Whitelist.basic());// now:

Link

jsoup 想得简直太周到了。

而 Whitelist 类还提供以下几个方法:

  • none()
  • simpleText()
  • basic()
  • basicWithImages()
  • relaxed()

另外你也可以自定义这个白名单。