Ai.KG经验记录文档
郝伟 2021/08
本文档记录在开发中遇到的一些问题
目前有两台机器,一台基于Raid5,另一台基于Raid6,提供了足够的硬件安全。
使用了每机架上3+2个备份,同一机架上最多2台不同虚拟机同时出现问题时,可以自动恢复。
参见以下视频(作者:陈一根):
https://pan.baidu.com/s/1AolVwuZ2Z_oNEFVcm_RIWQ 提取码: 46qw
备用:
https://pan.baidu.com/s/1SCYBKeC1BEN60wzo8d3SKQ 提取码:k3od
当前问题:将Json转成CSV时,会因原始数据的多个字段中出现不同的分隔符,而且hive表字段是以分隔符来做字段区分,导致数据错位。
解决方法:数据以json对象存入hive表中,读取时以json对象格式读取。
以下链接不好提取,示例:
# 1 带有http关键字的数据
https://nvd.nist.gov/vuln/detail/CVE-2020-24916
# 2 不带http关键字,带有IP的数据:
221.192.138.58/page/newsdetailmain.aspx?amp;amp%252525253bamp%252525253bamp%252525253bamp%252525253bamp%252525253b%252525253bamp%252525253bup=0&docid=287678
# 3 ip不完整的数据
.177.110/hnub64by
# 4 不带http与IP的数据
zywgyxx.com/member/login.php?gourl=%2Fgroup%2Fcreate.php
# 5 不带http,但与//的数据:
//upload/p
从url的name中可以看出 url与ip,url与domain的关系,需要整理?如何确定url的命令规则?