Ai.KG 七月主要研究内容 郝伟 2021/07/01 [TOC]

1. 简介

当前完成了阶段性的成果,可以实现在界面上的显示,但是仍然有一些问题需要解决,这些问题有的是简单的优化问题,有的是底层的结构合理性问题,或者是管理的问题,现在就这个问题一一进行描述,同时对工期进行大致预估。

2. 问题1:功能和接口没有分离

2.1. 问题描述

由于时间问题,现在接口都是直接面向页面的,每个页面一个接口,总共写了98个接口。这些所谓的“接口”并不是真正的接口,因为接口的本质要求是能够复用,而现在的接口由于都是针对页面编写的,所以会存在以下几点问题:

  1. 无法实现接口复用 因为每个接口都是针对一个页面的需求编写,所以有非常强的特殊性,而不具备通用性,所以无法实现复用。
  2. 接口代码重复 由于是针对页面编写的,所以有很多相同的内容没有抽象或统一管理,导致大量的代码重复。
  3. 接口数量过多 现在已经有98个接口,未来随着业务的增加,会有更多的接口,这样在管理起来会越来越困难,后期的维护成本会很高。

    2.2. 解决方案

  4. 分层 自底向上层要分三层:
    • 顶层:业务逻辑层,负责具体的业务模块,与页面相关。
    • 中层:实体关系层,负责对库中的实体和关系进行管理,包括实体、关系、属性和相关统计信息;
    • 底层,数据映射层:负责使用Gremlin与底层HugeGraph的数据进行交互;
  5. 业务与功能分离

    2.3. 预计工期:10人天

3. 问题2:数据实体与关系有待进一步优化

现在实体仍然不合理,需要进一步优化。

3.1. 问题描述

目前主要存在三个问题:

  1. 部分实体包含另一实体,没有没有分开,比如IP中可能包括Whosis信息;
  2. 部分实体或关系缺少,如社工信息;
  3. 部分或关系的属性不全,比如IP与DNS对应的有效性。

    3.2. 解决方案

    分析+完善。

    3.3. 预计工期:15人天

4. 问题3:辅助工具的开发

为了开发与测试,现在需要一些工具进行辅助。

4.1. 问题描述

现在至少还需要以下工具:

  1. 图的架构生成工具,即从指定的数据库生成实体、关系和属性的图;
  2. 数据量统计工具,即对指定数据库中的实体、关系和属性进行统计;
  3. 其他相关工具,如数据库容量查看、数据库备份等。

4.2. 解决方案

需要专有人员进行开发,

4.3. 预计工期:10人天。

每项需要天数:3+2+5=10人天

5. 问题4:数据导入工作

5.1. 问题描述

共有600多个文件,至少20种不同类别的文件。

5.2. 解决方案

人工分析+数据导入。

5.3. 预计工期:10人天

按每人每天2种数据导入计算,预计10人天。

6. 问题5:一些测试工作

参见Exsi服务器待测试验证内容。 待添加内容:模拟方式与分布式的测试,还需要考虑CDH。

6.1. 预计工期:5天

7. 问题6:多数据源的开发

基于Redis, MySQL, Spark等数据库源的开发。

7.1. 预计工期:10人天

results matching ""

    No results matching ""