大文件数据处理技巧 郝伟 2021/0/0 [TOC]
1. 简介
大文件一般指100MB以上的文件。大数据在处理时,往往会受到内存容量的限制。本文主要介绍一些大文件处理的技巧。
2. 分块处理
当数据文件过大时,往往会遇到两个文件:
数据容量超过内存容量,导致数据无法一次性加载
不同原因导致的多次加载会花费太多的时间 经常数据无法一次性加载,而且即使内存可以一次性加载,如果遇到错误,也可能会导致加载的数据崩溃,从而花费更多的时间在数据加载上。
所以,分块处理非常必要。这样,以上的两个问题都是迎刃而解。很多工具,如Pandas可以按指定行的方式进行数据处理。
3. 文件名
4. 原则
不要直接修改原始文件,包括修改原始文件的内容或移动原始文件的位置。
输出时最好记录文件名和路径,方式如下:
data/20210712/skgd/1df00.txt
将点和斜杠都转换为下划线,可得:
data_20210712_skgd_1df00_txt
然后建立一个文件夹,将所有的文件都放到这个文件夹下,可以拼接。
编号采用固定长度的顺序数字表示,如9位数字 file000000000 - 999999999