新用户注册入口 老用户登录入口

[转载]绿盟扫描报告信息提取

文章作者:转载 更新时间:2023-07-19 10:42:16 阅读数量:294
文章标签:`Jsoup``漏洞名称``漏洞简介`
本文摘要:该Java代码片段利用Jsoup库对HTML文档进行解析,通过自定义的NodeFilter筛选出TableTag和LinkTag标签。在解析过程中,重点关注包含特定字符串(如"onclick"、"vul-")的LinkTag元素,提取并分类(高危、中危、低危)漏洞名称,并获取TableTag中的漏洞简介信息。整个过程支持UTF-8编码,且文件内容通过openFile方法从本地读取。通过精心设计的过滤逻辑与HTML元素抽取方法,实现了对HTML文档中安全漏洞数据的有效抓取与整理。
转载文章

本篇文章为转载内容。原文链接:https://blog.csdn.net/zhaoguoshuai91/article/details/51802116。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

1、下载第三方扩展库

 filterbuilder.jar
 htmllexer.jar
 htmlparser.jar
 jsoup-1.9.2.jar
 junit.jar
 sax2.jar
 thumbelina.jar


2、执行以下方法

package com.zgs.look;import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class HtmlLook {private static String ENCODE = "UTF-8";public static void main(String[] args) {String szContent = openFile( "d:/index.html");try {Document doc = Jsoup.parse(szContent);Elements elList=doc.getElementsByAttributeValue("id","vulDataTable");szContent=elList.outerHtml();Parser parser = Parser.createParser(szContent, ENCODE);NodeFilter[]  filters = new NodeFilter[2];filters[0] = new NodeClassFilter(TableTag.class); filters[1] = new NodeClassFilter(LinkTag.class);NodeFilter filter =new OrFilter (filters);NodeList list = parser.extractAllNodesThatMatch(filter);String ldName="";String ldJianjie="";for (int i = 0; i < list.size(); i++) {    Node node =  list.elementAt(i);  if(node instanceof LinkTag){String nodeHtml=node.toHtml();if(nodeHtml.contains("removed")&&nodeHtml.contains("vul-")){if(!"".equals(ldName)&&!"".equals(ldJianjie)){//提交数据System.out.println("---commit---漏洞名称-------"+ldName);System.out.println("---commit---漏洞简介-------"+ldJianjie);ldName="";ldJianjie="";}String level="";if(nodeHtml.contains("vul-vh")){level="高危漏洞";}else if(nodeHtml.contains("vul-vm")){level="中危漏洞";}else if(nodeHtml.contains("vul-vl")){level="低危漏洞";}ldName=getLinkTagContent(nodeHtml)+"-----"+level+"------";
//	        			System.out.println("---漏洞名称-----"+getLinkTagContent(nodeHtml)+"-----"+level+"------");} }else{ldJianjie=getTableTagContent(node.toHtml());} }  } catch (Exception e) {e.printStackTrace();} }/*** 提取文件里面的文本信息* @param szFileName* @return*/public static String openFile(String szFileName) {try {BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream(new File(szFileName)), ENCODE));String szContent = "";String szTemp;while ((szTemp = bis.readLine()) != null) {szContent += szTemp + "\n";}bis.close();return szContent;} catch (Exception e) {return "";} }/*** 提取标签<a>a</a>内的内容* return a;*/public static String getLinkTagContent(String link){String content="";Pattern pattern = Pattern.compile("<a[^>]*>(.*?)</a>");Matcher matcher = pattern.matcher(link);if(matcher.find()){content=matcher.group(1);}return content;}/*** 解析Table标签内的东西* @param table*/public static String getTableTagContent(String table){Map<String,String> conMap=new HashMap<String,String>();String content="";Document doc = Jsoup.parse(table);Elements elList=doc.getElementsByAttributeValue("class","cmn_table plumb");Element el=elList.first();Elements trLists = el.select("tr");for (int i = 0; i < trLists.size(); i++) {Elements tds = trLists.get(i).select("td");String key="";String val="";for (int j = 0; j < tds.size(); j++) {String text = tds.get(j).text();if(j==0){key=text; }else{val=text; } }conMap.put(key, val);content+="|"+key+"-"+val;
//             System.out.println(key+"-"+val);}return content;}
}


本篇文章为转载内容。原文链接:https://blog.csdn.net/zhaoguoshuai91/article/details/51802116。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

相关阅读
文章标题:[转载][洛谷P1082]同余方程

更新时间:2023-02-18
[转载][洛谷P1082]同余方程
文章标题:[转载]webpack优化之HappyPack实战

更新时间:2023-08-07
[转载]webpack优化之HappyPack实战
文章标题:[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法

更新时间:2023-09-10
[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法
文章标题:[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo

更新时间:2024-03-11
[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo
文章标题:[转载]程序员也分三六九等?等级差异,一个看不起一个!

更新时间:2024-05-10
[转载]程序员也分三六九等?等级差异,一个看不起一个!
文章标题:[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集

更新时间:2024-01-12
[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集
名词解释
作为当前文章的名词解释,仅对当前文章有效。
JsoupJsoup 是一个开源的Java库,主要用于处理和解析HTML文档。在本文档的上下文中,Jsoup被用来从HTML文件中提取、操作数据以及清理(标准化)HTML内容。通过调用Jsoup的方法,开发者可以方便地获取到网页中的特定元素,如链接标签(LinkTag)和表格标签(TableTag)等,并进一步分析这些元素内的信息。
NodeFilterNodeFilter是HTMLParser库中定义的一个接口,用于过滤或匹配HTML文档中的节点对象。在该文章代码示例中,作者创建了多个NodeFilter实例,比如NodeClassFilter和OrFilter,来筛选出符合特定条件的HTML节点,例如包含特定类别的TableTag和LinkTag。这样做的目的是在解析过程中仅关注与安全漏洞相关的部分。
TableTagTableTag代表HTML中的表格标签(),用于展示多行多列的数据结构。在这个Java应用案例里,TableTag同样是被重点关注的对象类型,程序会根据其属性值进行定位,并使用Jsoup解析表格内的内容,将每一行的键值对数据(如
元素中的文本)提取出来,作为漏洞简介或其他相关信息的一部分。
延伸阅读
作为当前文章的延伸阅读,仅对当前文章有效。
在深入理解了使用Java和Jsoup库进行HTML解析与信息提取的技术实践后,我们可以进一步关注该领域的一些最新动态和技术应用实例。近期,《信息安全技术与应用》期刊报道了一项关于网络空间安全监控的研究,其中就利用了类似的HTML内容抓取和分析技术,对全球范围内的公开漏洞报告进行了实时监测和智能分析,有效提升了漏洞管理效率并降低了潜在风险。
同时,随着Web技术的快速发展,HTML5标准的普及以及各类网站结构的复杂化,如何更精准高效地从海量网页中提取关键数据成为一个亟待解决的问题。例如,Mozilla最近发布的一篇博客文章详细介绍了其如何借助类似Jsoup的开源库优化Firefox浏览器的安全更新通告系统,通过精确筛选和解析HTML页面中的特定元素,实现了对安全漏洞信息的自动化获取和分类。
此外,针对网络安全领域,国内外众多安全研究团队正积极研发新型的信息抽取模型,结合机器学习、深度学习等先进技术,提升对网页内容的理解能力,以便更快更准确地定位高危漏洞。近日,在Black Hat USA 2023大会上,就有专家演示了利用强化学习方法训练出的智能爬虫,成功在大量网页中挖掘出尚未被广泛认知的隐蔽性安全漏洞。
综上所述,无论是基于Jsoup的传统HTML解析技术,还是结合AI前沿发展的智能信息抽取手段,都在不断推动网络安全监控和漏洞管理领域的进步,为构建更加安全可靠的网络环境提供了有力支持。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
unalias alias_name - 删除已定义的别名。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
可自定义logo的jQuery生成二维码插件 01-03 jquery每日签到日历插件 10-10 高度可定制的jQuery瀑布流网格布局插件 03-15 Consul中服务实例自动注销问题解析:健康检查、稳定性与Agent配置的影响及解决策略 01-22 怎么看mysql 的安装路径 12-31 jquery横向手风琴效果 12-23 蓝色数码电子产品销售HTML5网站模板 12-14 jQuery和CSS3汉堡包导航菜单打开动画特效 10-19 python模拟生存游戏 10-08 本次刷新还10个文章未展示,点击 更多查看。
jQuery.eraser-实现橡皮擦擦除功能的jquery插件 05-26 Netty中ChannelNotRegisteredException异常处理:理解原因与确保Channel注册状态的方法示例 05-16 响应式游戏开发类企业前端cms模板下载 05-02 精美的花甲美食网站HTML模板下载 03-09 soulmate粉色干净浪漫唯美婚礼单页响应式网站模板 03-07 Vue.js项目中proxyTable数据转发遭遇504错误:服务器响应时间与网络连接问题排查及解决方案 03-05 SpringCloud服务路由配置错误与失效:识别问题、排查步骤及组件解析这个涵盖了的核心内容,包括SpringCloud框架下的服务路由配置错误失效问题的识别,以及涉及到的服务注册中心、Gateway、Zuul等组件的功能解析和故障排查的具体步骤。同时,字数控制在了50个字以内,满足了要求。 03-01 css水平线长度设置 02-11 [转载]Proxy 、Relect、响应式 01-11 蓝色响应式软件营销代理公司网站静态模板 01-06 python正太分布校验 01-05
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"