Ai.KG经验记录文档 郝伟 2021/08 [TOC]
1. 简介
本文档记录在开发中遇到的一些问题
2. 常见问题 FAQ
2.1. Q001: 硬盘如何保证安全?
目前有两台机器,一台基于Raid5,另一台基于Raid6,提供了足够的硬件安全。
2.2. Q002: HDFS数据如何保安全?
使用了每机架上3+2个备份,同一机架上最多2台不同虚拟机同时出现问题时,可以自动恢复。
2.3. Q003:如何添加集群节点
参见以下视频(作者:陈一根): https://pan.baidu.com/s/1AolVwuZ2Z_oNEFVcm_RIWQ 提取码: 46qw 备用: https://pan.baidu.com/s/1SCYBKeC1BEN60wzo8d3SKQ 提取码:k3od
3. 问题 ISSUES
3.1. ISSUE_001: 如何将Json数据导入Hive
当前问题:将Json转成CSV时,会因原始数据的多个字段中出现不同的分隔符,而且hive表字段是以分隔符来做字段区分,导致数据错位。 解决方法:数据以json对象存入hive表中,读取时以json对象格式读取。
4. 问题记录
4.1. 2021/10/25 URL连接如何提取?
以下链接不好提取,示例:
# 1 带有http关键字的数据
https://nvd.nist.gov/vuln/detail/CVE-2020-24916
# 2 不带http关键字,带有IP的数据:
221.192.138.58/page/newsdetailmain.aspx?amp;amp%252525253bamp%252525253bamp%252525253bamp%252525253bamp%252525253b%252525253bamp%252525253bup=0&docid=287678
# 3 ip不完整的数据
.177.110/hnub64by
# 4 不带http与IP的数据
zywgyxx.com/member/login.php?gourl=%2Fgroup%2Fcreate.php
# 5 不带http,但与//的数据:
//upload/p
从url的name中可以看出 url与ip,url与domain的关系,需要整理?如何确定url的命令规则?