本文摘要：该Java代码片段利用Jsoup库对HTML文档进行解析，通过自定义的NodeFilter筛选出TableTag和LinkTag标签。在解析过程中，重点关注包含特定字符串（如"onclick"、"vul-"）的LinkTag元素，提取并分类（高危、中危、低危）漏洞名称，并获取TableTag中的漏洞简介信息。整个过程支持UTF-8编码，且文件内容通过openFile方法从本地读取。通过精心设计的过滤逻辑与HTML元素抽取方法，实现了对HTML文档中安全漏洞数据的有效抓取与整理。

转载文章

本篇文章为转载内容。原文链接：https://blog.csdn.net/zhaoguoshuai91/article/details/51802116。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

1、下载第三方扩展库

filterbuilder.jar
htmllexer.jar
htmlparser.jar
jsoup-1.9.2.jar
junit.jar
sax2.jar
thumbelina.jar

2、执行以下方法

package com.zgs.look;import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class HtmlLook {private static String ENCODE = "UTF-8";public static void main(String[] args) {String szContent = openFile( "d:/index.html");try {Document doc = Jsoup.parse(szContent);Elements elList=doc.getElementsByAttributeValue("id","vulDataTable");szContent=elList.outerHtml();Parser parser = Parser.createParser(szContent, ENCODE);NodeFilter[]  filters = new NodeFilter[2];filters[0] = new NodeClassFilter(TableTag.class); filters[1] = new NodeClassFilter(LinkTag.class);NodeFilter filter =new OrFilter (filters);NodeList list = parser.extractAllNodesThatMatch(filter);String ldName="";String ldJianjie="";for (int i = 0; i < list.size(); i++) {    Node node =  list.elementAt(i);  if(node instanceof LinkTag){String nodeHtml=node.toHtml();if(nodeHtml.contains("removed")&&nodeHtml.contains("vul-")){if(!"".equals(ldName)&&!"".equals(ldJianjie)){//提交数据System.out.println("---commit---漏洞名称-------"+ldName);System.out.println("---commit---漏洞简介-------"+ldJianjie);ldName="";ldJianjie="";}String level="";if(nodeHtml.contains("vul-vh")){level="高危漏洞";}else if(nodeHtml.contains("vul-vm")){level="中危漏洞";}else if(nodeHtml.contains("vul-vl")){level="低危漏洞";}ldName=getLinkTagContent(nodeHtml)+"-----"+level+"------";
//	        			System.out.println("---漏洞名称-----"+getLinkTagContent(nodeHtml)+"-----"+level+"------");} }else{ldJianjie=getTableTagContent(node.toHtml());} }  } catch (Exception e) {e.printStackTrace();} }/*** 提取文件里面的文本信息* @param szFileName* @return*/public static String openFile(String szFileName) {try {BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream(new File(szFileName)), ENCODE));String szContent = "";String szTemp;while ((szTemp = bis.readLine()) != null) {szContent += szTemp + "\n";}bis.close();return szContent;} catch (Exception e) {return "";} }/*** 提取标签<a>a</a>内的内容* return a;*/public static String getLinkTagContent(String link){String content="";Pattern pattern = Pattern.compile("<a[^>]*>(.*?)</a>");Matcher matcher = pattern.matcher(link);if(matcher.find()){content=matcher.group(1);}return content;}/*** 解析Table标签内的东西* @param table*/public static String getTableTagContent(String table){Map<String,String> conMap=new HashMap<String,String>();String content="";Document doc = Jsoup.parse(table);Elements elList=doc.getElementsByAttributeValue("class","cmn_table plumb");Element el=elList.first();Elements trLists = el.select("tr");for (int i = 0; i < trLists.size(); i++) {Elements tds = trLists.get(i).select("td");String key="";String val="";for (int j = 0; j < tds.size(); j++) {String text = tds.get(j).text();if(j==0){key=text; }else{val=text; } }conMap.put(key, val);content+="|"+key+"-"+val;
//             System.out.println(key+"-"+val);}return content;}
}

本篇文章为转载内容。原文链接：https://blog.csdn.net/zhaoguoshuai91/article/details/51802116。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

名词解释

作为当前文章的名词解释，仅对当前文章有效。

Jsoup：Jsoup 是一个开源的Java库，主要用于处理和解析HTML文档。在本文档的上下文中，Jsoup被用来从HTML文件中提取、操作数据以及清理（标准化）HTML内容。通过调用Jsoup的方法，开发者可以方便地获取到网页中的特定元素，如链接标签(LinkTag)和表格标签(TableTag)等，并进一步分析这些元素内的信息。

NodeFilter：NodeFilter是HTMLParser库中定义的一个接口，用于过滤或匹配HTML文档中的节点对象。在该文章代码示例中，作者创建了多个NodeFilter实例，比如NodeClassFilter和OrFilter，来筛选出符合特定条件的HTML节点，例如包含特定类别的TableTag和LinkTag。这样做的目的是在解析过程中仅关注与安全漏洞相关的部分。

LinkTag：在HTML语法中，LinkTag表示超链接标签（），它通常用于定义指向其他网页、资源或锚点的链接。在本文所描述的Java程序中，LinkTag是一个关键对象类型，程序会检查并提取其中的内容以识别安全漏洞的相关信息，特别是当标签内含有特定字符串时，如"onclick"和"vul-"，进而分析并分类（高危、中危、低危）漏洞名称。

TableTag：TableTag代表HTML中的表格标签（），用于展示多行多列的数据结构。在这个Java应用案例里，TableTag同样是被重点关注的对象类型，程序会根据其属性值进行定位，并使用Jsoup解析表格内的内容，将每一行的键值对数据（如

元素中的文本）提取出来，作为漏洞简介或其他相关信息的一部分。