大文件数据处理技巧
郝伟 2021/0/0

简介

大文件一般指100MB以上的文件。大数据在处理时,往往会受到内存容量的限制。本文主要介绍一些大文件处理的技巧。

分块处理

当数据文件过大时,往往会遇到两个文件:

所以,分块处理非常必要。这样,以上的两个问题都是迎刃而解。很多工具,如Pandas可以按指定行的方式进行数据处理。

文件名

原则

不要直接修改原始文件,包括修改原始文件的内容或移动原始文件的位置。

输出时最好记录文件名和路径,方式如下:
data/20210712/skgd/1df00.txt
将点和斜杠都转换为下划线,可得:
data_20210712_skgd_1df00_txt
然后建立一个文件夹,将所有的文件都放到这个文件夹下