Developing an Ontology for Cyber Security Knowledge Graphs
郝伟,2020/12/25
论文题目:Developing an Ontology for Cyber Security Knowledge Graphs
发表日期:April 2015
统一编码:DOI:10.1145/2746266.2746278
发表级别:Conference: the 10th Annual Cyber and Information Security Research Conference
作者列表:Michael Iannacone、Michael Iannacone、Shawn J. Bohn at Battelle等8位
作者单位:Stanford University
下载页面:链接
本文为马维士推荐的,作为2021年知识图谱研究的主要内容,公司知识图谱的架构的研究主要基于此论文。此论文对知识图谱的技术进行了介绍,核心价值在于漏洞图谱结构的提出,例如STUCCO project提出了如下图谱:
图中共定义了以下15类主体、共有115个属性和19种关系,我们的研究内容可以在此基础之上进行扩展。
文章描述了为网络安全开发的本体安全知识图数据库,提供包含信息的有组织的架构
,基数据来自于多模态的结构化和非结构化数据源,包括该领域内的所有相关概念。文章还对产生的本体与先前的本体进行比较,讨论其优缺点,并描述未来工作的领域。
网络安全领域在技术上变得更加复杂且在经济上更重要信息增长迅速,管理和使用的困难。
目前主要存在以下问题:
论文提出一种本体论,它整合了多种公开的大量可用的数据集以及内部信息(例如流)和IDS警报,以构建此类信息资源对分析师或自动化工具都有实用价值。
相关研究工作包括了安全概念模型化和安全概念整合两方面的研究文章。
文章使用了13个结构化来源的数据。 这些数据源通过转换数据的管道生成中间格式GraphSON格式,然后存入数据库并与现有数据融合。除此之外,作者还对数据库中的数据进行了一些实体关联,以更好地为数据分析服务。
另外还有一个重要的问题就是如何区分 malware 和 exploits。这是因为模块化的原因,malware中会包含一些exp,还有一些poc功能的exp。
人工操作取得用例的三种操作:
结果本体如上图所示。为了简单起见,在该图中省略了这些符号。因为这个本体为了提供一个直观的模型,我们将讨论一些注意事项,而不是全面定义每个实体。
几点注意事项:
论文所述的完整的实体结构图,包括实体、属性和关系的全部内容,参见此地址:
https://github.com/stucco-archive/ontology/blob/master/stucco_schema.json
另外需要注意一点,数据源大都无法提供这是因为网络上的数据收集方式(例如从边界路由器)。相反,基于主机的系统如Hone可以提供此上下文信息,他们对主机状态的可见性。 STUCCO利用两种类型的来源,但都保持了这种附加的语境在任何可用的地方。最后,请注意地址节点分为更具体的子组件;在实践中该地址必须始终包括以下至少一项的边这些项目。这种结构虽然稍微复杂一些,大大有助于生成查询-例如常见的IP:端口组合将更难查询没有该节点提供的聚合。
文章中所有的表示都使用JSON模式指定了本体。其主要优点:
目前,共有15种实体115属性。这些属性通常有指定的基数和类型的限制。由于 JSON 是可扩展的,它还提供了一个方便的位置来包括其他元数据。
使用Json也有一些明显的限制。以OWL为例,执行自动推理很简单关于传递关系,或推断新关系基于已知逻辑的。 不过当前的用例不需要这些功能,所以目前这些限制几乎没有造成任何困难。
本文中的本体表示迭代设计过程的结果,旨在创建知识表示,该知识表示可以有效地组合来自可能多的数据尽可能在网络安全领域内找到资源。 STUCCO项目目前将来自13个结构化来源的数据与不同的格式,并且添加的更多,少量添加并且对本体的调整可能会继续发生。 同样,随着为STUCCO开发更多用途知识图,可能需要进行一些更改才能实现这些新用途。
在未来的工作中,作者计划研究如何最好地进行互操作符合STIX及其相关标准。这样以来,同样的数据可以使用更多工具在这些格式的数据中,随着该领域的发展,互操作性将变得越来越重要。