Ai.KG经验记录文档 郝伟 2021/08 [TOC]

1. 简介

本文档记录在开发中遇到的一些问题

2. 常见问题 FAQ

2.1. Q001: 硬盘如何保证安全?

目前有两台机器,一台基于Raid5,另一台基于Raid6,提供了足够的硬件安全。

2.2. Q002: HDFS数据如何保安全?

使用了每机架上3+2个备份,同一机架上最多2台不同虚拟机同时出现问题时,可以自动恢复。

2.3. Q003:如何添加集群节点

参见以下视频(作者:陈一根): https://pan.baidu.com/s/1AolVwuZ2Z_oNEFVcm_RIWQ 提取码: 46qw 备用: https://pan.baidu.com/s/1SCYBKeC1BEN60wzo8d3SKQ 提取码:k3od

3. 问题 ISSUES

3.1. ISSUE_001: 如何将Json数据导入Hive

当前问题:将Json转成CSV时,会因原始数据的多个字段中出现不同的分隔符,而且hive表字段是以分隔符来做字段区分,导致数据错位。 解决方法:数据以json对象存入hive表中,读取时以json对象格式读取。

4. 问题记录

4.1. 2021/10/25 URL连接如何提取?

以下链接不好提取,示例:

# 1 带有http关键字的数据
https://nvd.nist.gov/vuln/detail/CVE-2020-24916
# 2 不带http关键字,带有IP的数据:
221.192.138.58/page/newsdetailmain.aspx?amp;amp%252525253bamp%252525253bamp%252525253bamp%252525253bamp%252525253b%252525253bamp%252525253bup=0&docid=287678
# 3 ip不完整的数据
.177.110/hnub64by
# 4 不带http与IP的数据
zywgyxx.com/member/login.php?gourl=%2Fgroup%2Fcreate.php
# 5 不带http,但与//的数据:
//upload/p

从url的name中可以看出 url与ip,url与domain的关系,需要整理?如何确定url的命令规则?

results matching ""

    No results matching ""