Ai.KG数据处理能力说明
郝伟 2021/07/26
相关访问资源
| 内容 | 网址 | 说明 |
|---|---|---|
| 商业版 | 一般访问接口 | https://47.94.23.179/home |
| 作战版 | 一般+专用接口 | https://117.71.62.132:8091/home |
| 正式HG | 集群模式 | http://10.10.0.4:8088 |
| 备用HG | 内存模式 | http://192.168.3.98 |
地址:http://10.10.0.16:6000/doc/
功能:实现mysql库表的数据的查询,修改,插入操作。
功能:
"param_conf": {
"host": "10.10.0.13",
"port": 3306,
"user": "admin",
"password": "admin@202106",
"database": "data",
"charset": "utf8mb4",
"autocommit": "True"
}
HG的认证方式
基于 HTTP Basic Authentication,需要修改Http头,参见:
https://www.cnblogs.com/yuqiangli0616/p/9389273.html
Hadoop添加节点datanode
https://www.cnblogs.com/ggjucheng/archive/2012/04/18/2454689.html
- 标准格式:数字.数字.数字.数字 149.65.127.93
- 检测条件:
- 不包含 .
- 没有4组
- 不是纯数字
- python脚本:
def check_ip_data(): # ip 标准格式: 数字.数字.数字.数字 ph = PhoenixClient() problem_data_list = [] for i in ph.read_as_dict('select name,id from IP'): if '.' not in i['NAME']: problem_data_list.append(i) else: cur_name = i['NAME'].split('.') if len(cur_name) != 4: problem_data_list.append(i) else: for a in cur_name: if not a.isdigit(): problem_data_list.append(i) df = pd.DataFrame(problem_data_list) df.to_csv('/home/output/check/ip.csv',header=True,index=False)
- 检测结果:10条数据不符合
- 标准格式:由一串用点分隔的名字组成 a7298.binance.com
- 检测条件:不包含 .
- python脚本:
def check_domain_data(): # domain 标准格式: 由一串用点分隔的名字组成 ph = PhoenixClient() problem_data_list = [] for i in ph.read_as_dict('select name,id from DOMAIN'): if '.' not in i['NAME']: problem_data_list.append(i) df = pd.DataFrame(problem_data_list) df.to_csv('/home/output/check/domain.csv',header=True,index=False)
- 检测结果:655条数据不符合
- 标准格式:包含 @ 与 . 01rgsur@gmail.com
- 检测条件:不包含 @ 与 .
- python脚本:
def check_email_data(): # email 标准格式: 包含 @ 与 . ph = PhoenixClient() problem_data_list = [] for i in ph.read_as_dict('select name,id from EMAIL'): if '@' not in i['NAME'] and '.' not in i['NAME']: problem_data_list.append(i) df = pd.DataFrame(problem_data_list) df.to_csv('/home/output/check/email.csv',header=True,index=False)
- 检测结果:171条数据不符合
- 标准格式:待讨论
- 检测条件:
- python脚本:
def check_url_data(): # url 标准格式:
- 检测结果: