大文件数据处理技巧 郝伟 2021/0/0 [TOC]

1. 简介

大文件一般指100MB以上的文件。大数据在处理时,往往会受到内存容量的限制。本文主要介绍一些大文件处理的技巧。

2. 分块处理

当数据文件过大时,往往会遇到两个文件:

  • 数据容量超过内存容量,导致数据无法一次性加载

  • 不同原因导致的多次加载会花费太多的时间 经常数据无法一次性加载,而且即使内存可以一次性加载,如果遇到错误,也可能会导致加载的数据崩溃,从而花费更多的时间在数据加载上。

所以,分块处理非常必要。这样,以上的两个问题都是迎刃而解。很多工具,如Pandas可以按指定行的方式进行数据处理。

3. 文件名

4. 原则

不要直接修改原始文件,包括修改原始文件的内容或移动原始文件的位置。

输出时最好记录文件名和路径,方式如下: data/20210712/skgd/1df00.txt 将点和斜杠都转换为下划线,可得: data_20210712_skgd_1df00_txt 然后建立一个文件夹,将所有的文件都放到这个文件夹下,可以拼接。

编号采用固定长度的顺序数字表示,如9位数字 file000000000 - 999999999

results matching ""

    No results matching ""