Developing an Ontology for Cyber Security Knowledge Graphs
郝伟，2020/12/25

1 前言

1.1 论文信息

论文题目：Developing an Ontology for Cyber Security Knowledge Graphs
发表日期：April 2015
统一编码：DOI：10.1145/2746266.2746278
发表级别：Conference: the 10th Annual Cyber and Information Security Research Conference
作者列表：Michael Iannacone、Michael Iannacone、Shawn J. Bohn at Battelle等8位
作者单位：Stanford University
下载页面：链接

1.2 简介

本文为马维士推荐的，作为2021年知识图谱研究的主要内容，公司知识图谱的架构的研究主要基于此论文。此论文对知识图谱的技术进行了介绍，核心价值在于漏洞图谱结构的提出，例如STUCCO project提出了如下图谱：

图中共定义了以下15类主体、共有115个属性和19种关系，我们的研究内容可以在此基础之上进行扩展。

1.3 论文摘要

文章描述了为网络安全开发的本体安全知识图数据库，提供包含信息的有组织的架构
，基数据来自于多模态的结构化和非结构化数据源，包括该领域内的所有相关概念。文章还对产生的本体与先前的本体进行比较，讨论其优缺点，并描述未来工作的领域。

2 论文简介

2.1 背景

网络安全领域在技术上变得更加复杂且在经济上更重要信息增长迅速，管理和使用的困难。

2.2 问题

目前主要存在以下问题：

已经有在创建结构化数据源方面取得了一些显著成功一些域实体（例如漏洞数据库），但是许多域信息仅在文本源中可用，且无结构化的内容处理困难；
在不同库中的不同实体的交叉引用也是一个问题；

2.3 目的

论文提出一种本体论，它整合了多种公开的大量可用的数据集以及内部信息（例如流）和IDS警报，以构建此类信息资源对分析师或自动化工具都有实用价值。

2.4 相关工作

相关研究工作包括了安全概念模型化和安全概念整合两方面的研究文章。

3 数据源

文章使用了13个结构化来源的数据。这些数据源通过转换数据的管道生成中间格式GraphSON格式，然后存入数据库并与现有数据融合。除此之外，作者还对数据库中的数据进行了一些实体关联，以更好地为数据分析服务。

另外还有一个重要的问题就是如何区分 malware 和 exploits。这是因为模块化的原因，malware中会包含一些exp，还有一些poc功能的exp。

4 用例

人工操作取得用例的三种操作：

按地址搜索流记录和IDS记录在某个时间范围内，并比较远程针对黑名单或声誉系统的地址；
基于漏洞数据库进行比较和IDS警报信息，收集有关软件包的信息受影响的主机信息；
尝试根据系统更改识别恶意软件和网络流量日志。

5 ONTOLOGY (本体论) 设计

结果本体如上图所示。为了简单起见，在该图中省略了这些符号。因为这个本体为了提供一个直观的模型，我们将讨论一些注意事项，而不是全面定义每个实体。

几点注意事项：

EXP与恶意软件实体并在一起；
flow 实体与_软件_实体有一条边相连，以表示软件产生了流。但是实际上，此关系是并不是软件产生的，而是从网络上的数据抓取时发现的；而基于Host的主机则可以。在管理时要分别区分对待。
IP与主机是分离的，这在处理时可能会带来些麻烦。

论文所述的完整的实体结构图，包括实体、属性和关系的全部内容，参见此地址：
https://github.com/stucco-archive/ontology/blob/master/stucco_schema.json

另外需要注意一点，数据源大都无法提供这是因为网络上的数据收集方式（例如从边界路由器）。相反，基于主机的系统如Hone可以提供此上下文信息，他们对主机状态的可见性。 STUCCO利用两种类型的来源，但都保持了这种附加的语境在任何可用的地方。最后，请注意地址节点分为更具体的子组件；在实践中该地址必须始终包括以下至少一项的边这些项目。这种结构虽然稍微复杂一些，大大有助于生成查询-例如常见的IP：端口组合将更难查询没有该节点提供的聚合。

6 实现

文章中所有的表示都使用JSON模式指定了本体。其主要优点：

与GraphSON格式的兼容性在加载和查询图形数据库时使用的；
验证传入的数据非常简单，并且在定义初始化；
这些实体的属性和这些属性的限制也作为此JSONSchema定义的一部分指定。

目前，共有15种实体115属性。这些属性通常有指定的基数和类型的限制。由于 JSON 是可扩展的，它还提供了一个方便的位置来包括其他元数据。

使用Json也有一些明显的限制。以OWL为例，执行自动推理很简单关于传递关系，或推断新关系基于已知逻辑的。不过当前的用例不需要这些功能，所以目前这些限制几乎没有造成任何困难。

7 总结与展望

本文中的本体表示迭代设计过程的结果，旨在创建知识表示，该知识表示可以有效地组合来自可能多的数据尽可能在网络安全领域内找到资源。 STUCCO项目目前将来自13个结构化来源的数据与不同的格式，并且添加的更多，少量添加并且对本体的调整可能会继续发生。同样，随着为STUCCO开发更多用途知识图，可能需要进行一些更改才能实现这些新用途。

在未来的工作中，作者计划研究如何最好地进行互操作符合STIX及其相关标准。这样以来，同样的数据可以使用更多工具在这些格式的数据中，随着该领域的发展，互操作性将变得越来越重要。

参考文献

参考文献列表
Developing an Ontology for Cyber Security Knowledge Graphs下载： https://www.researchgate.net/publication/300525722_Developing_an_Ontology_for_Cyber_Security_Knowledge_Graphs
对比示例网站：思知 https://www.ownthink.com/
一种构建网络安全知识图谱的实用方法——贾焰，https://blog.csdn.net/fufu_good/article/details/103974238
对STIX2.0标准12个构件的解读， https://blog.csdn.net/fufu_good/article/details/104109496