Ai.KG数据处理能力说明 郝伟 2021/07/26 [TOC]
1. 简介
相关访问资源
| 内容 | 网址 | 说明 |
|---|---|---|
| 商业版 | 一般访问接口 | https://47.94.23.179/home |
| 作战版 | 一般+专用接口 | https://117.71.62.132:8091/home |
| 正式HG | 集群模式 | http://10.10.0.4:8088 |
| 备用HG | 内存模式 | http://192.168.3.98 |
2. 1 威胁情报能力
2.1.1. 1.1 增删改查接口
地址:http://10.10.0.16:6000/doc/ 功能:实现mysql库表的数据的查询,修改,插入操作。
2.1.2. 1.2 数据转换工具
功能:
- 1 excel,csv表数据转换,存储到hg图书库,并生成json文件
- 2 excel,csv表数据转换,存储mysql数据库
- 3 mysql库表数据转换,存储到hg图书库,并生成json文件
3. 2 配置
3.1. 2.1 MySql 配置
"param_conf": {
"host": "10.10.0.13",
"port": 3306,
"user": "admin",
"password": "admin@202106",
"database": "data",
"charset": "utf8mb4",
"autocommit": "True"
}
4. 附:相关技术资源
HG的认证方式 基于 HTTP Basic Authentication,需要修改Http头,参见: https://www.cnblogs.com/yuqiangli0616/p/9389273.html
Hadoop添加节点datanode https://www.cnblogs.com/ggjucheng/archive/2012/04/18/2454689.html
5. 数据检查报告
5.1. IP
- 标准格式:数字.数字.数字.数字 149.65.127.93
- 检测条件:
- 不包含 .
- 没有4组
- 不是纯数字
- python脚本:
def check_ip_data(): # ip 标准格式: 数字.数字.数字.数字 ph = PhoenixClient() problem_data_list = [] for i in ph.read_as_dict('select name,id from IP'): if '.' not in i['NAME']: problem_data_list.append(i) else: cur_name = i['NAME'].split('.') if len(cur_name) != 4: problem_data_list.append(i) else: for a in cur_name: if not a.isdigit(): problem_data_list.append(i) df = pd.DataFrame(problem_data_list) df.to_csv('/home/output/check/ip.csv',header=True,index=False)- 检测结果:10条数据不符合
5.2. DOMAIN
- 标准格式:由一串用点分隔的名字组成 a7298.binance.com
- 检测条件:不包含 .
- python脚本:
def check_domain_data(): # domain 标准格式: 由一串用点分隔的名字组成 ph = PhoenixClient() problem_data_list = [] for i in ph.read_as_dict('select name,id from DOMAIN'): if '.' not in i['NAME']: problem_data_list.append(i) df = pd.DataFrame(problem_data_list) df.to_csv('/home/output/check/domain.csv',header=True,index=False)
- 检测结果:655条数据不符合
5.3. EMAIL
- 标准格式:包含 @ 与 . 01rgsur@gmail.com
- 检测条件:不包含 @ 与 .
- python脚本:
def check_email_data(): # email 标准格式: 包含 @ 与 . ph = PhoenixClient() problem_data_list = [] for i in ph.read_as_dict('select name,id from EMAIL'): if '@' not in i['NAME'] and '.' not in i['NAME']: problem_data_list.append(i) df = pd.DataFrame(problem_data_list) df.to_csv('/home/output/check/email.csv',header=True,index=False)
- 检测结果:171条数据不符合
5.4. URL
- 标准格式:待讨论
- 检测条件:
- python脚本:
def check_url_data(): # url 标准格式:
- 检测结果: