Ai.KG 七月主要研究内容 郝伟 2021/07/01 [TOC]
1. 简介
当前完成了阶段性的成果,可以实现在界面上的显示,但是仍然有一些问题需要解决,这些问题有的是简单的优化问题,有的是底层的结构合理性问题,或者是管理的问题,现在就这个问题一一进行描述,同时对工期进行大致预估。
2. 问题1:功能和接口没有分离
2.1. 问题描述
由于时间问题,现在接口都是直接面向页面的,每个页面一个接口,总共写了98个接口。这些所谓的“接口”并不是真正的接口,因为接口的本质要求是能够复用,而现在的接口由于都是针对页面编写的,所以会存在以下几点问题:
- 无法实现接口复用 因为每个接口都是针对一个页面的需求编写,所以有非常强的特殊性,而不具备通用性,所以无法实现复用。
- 接口代码重复 由于是针对页面编写的,所以有很多相同的内容没有抽象或统一管理,导致大量的代码重复。
- 接口数量过多
现在已经有98个接口,未来随着业务的增加,会有更多的接口,这样在管理起来会越来越困难,后期的维护成本会很高。
2.2. 解决方案
- 分层
自底向上层要分三层:
- 顶层:业务逻辑层,负责具体的业务模块,与页面相关。
- 中层:实体关系层,负责对库中的实体和关系进行管理,包括实体、关系、属性和相关统计信息;
- 底层,数据映射层:负责使用Gremlin与底层HugeGraph的数据进行交互;
- 业务与功能分离
2.3. 预计工期:10人天
3. 问题2:数据实体与关系有待进一步优化
现在实体仍然不合理,需要进一步优化。
3.1. 问题描述
目前主要存在三个问题:
- 部分实体包含另一实体,没有没有分开,比如IP中可能包括Whosis信息;
- 部分实体或关系缺少,如社工信息;
- 部分或关系的属性不全,比如IP与DNS对应的有效性。
3.2. 解决方案
分析+完善。3.3. 预计工期:15人天
4. 问题3:辅助工具的开发
为了开发与测试,现在需要一些工具进行辅助。
4.1. 问题描述
现在至少还需要以下工具:
- 图的架构生成工具,即从指定的数据库生成实体、关系和属性的图;
- 数据量统计工具,即对指定数据库中的实体、关系和属性进行统计;
- 其他相关工具,如数据库容量查看、数据库备份等。
4.2. 解决方案
需要专有人员进行开发,
4.3. 预计工期:10人天。
每项需要天数:3+2+5=10人天
5. 问题4:数据导入工作
5.1. 问题描述
共有600多个文件,至少20种不同类别的文件。
5.2. 解决方案
人工分析+数据导入。
5.3. 预计工期:10人天
按每人每天2种数据导入计算,预计10人天。
6. 问题5:一些测试工作
参见Exsi服务器待测试验证内容。 待添加内容:模拟方式与分布式的测试,还需要考虑CDH。
6.1. 预计工期:5天
7. 问题6:多数据源的开发
基于Redis, MySQL, Spark等数据库源的开发。