个性化阅读
专注于IT技术分析

如何在Windows 10中使用CSV拆分器将庞大的CSV数据集拆分为较小的文件

点击下载

本文概述

最近, 在一个涉及使用CSV(逗号分隔值)格式的第三方数据库的特殊项目中, 我很快注意到我缺乏使用我喜欢的语言来操纵大量信息集的知识。由于缺乏时间, 我无法负担重写一些通用代码, 而这些通用代码已经必须使用PHP将此类数据导入数据库。

1.下载CSVSplitter

CSVSplitter是ERD Concepts公司为Windows开发的桌面应用程序。使用此工具, 你可以根据行数(行)将大型逗号分隔文件(CSV)拆分为较小的文件。 CSV拆分器将在短短几分钟内处理数百万条记录。它会在后台运行, 因此你无需等待完成即可继续工作, 但是, 作为个人提示, 如果数据集很大(与本示例中的25GB相比), 我们建议你仅将提到的应用程序已打开, 因此它将使用计算机的所有可用资源, 并且处理时间将更快, 并且不会影响你同时打开的其他应用程序的性能。

你可以直接从此链接下载该工具, 也可以查看ERD公司提供的所有工具的列表, 然后从此处的列表中下载。网站的zip文件将包含一个简单的可移植.exe文件和.txt文件, 这些文件是与可执行文件一起使用所必需的, 只需将内容提取到某个目录中即可开始工作:

CSVSplitter Windows 10桌面

有关此工具的更多信息, 请不要忘记在此处访问ERD Concepts官方网站。

2.分割CSV数据集

首先, 你需要将CSV文件分割成小块。在我们的示例中, 我们有一些文件的未压缩文件大小为25GB, 显然, 在Excel或什至纯文本编辑器中打开此类文件都将导致程序崩溃!例如, 以下包含标题的CSV结构(第一行指定列):

id, name, description
1, "Bruce Wayne", "I'm Batman"
2, "Alfred Pennyworth", "I'm Batman's Butler"
...
7691502, "Comissioner Gordon", "Best Comissioner Ever"

正如我们所描述的, 该文件有7.514.701行, 因此, 理想情况下, 我们可以将文件分成每个文件250.000行的大块, 因此可以在自己的脚本中获得不错的性能。

你只需要打开应用程序, 然后选择要处理的输入CSV文件以及应该存储结果的输出目录。有2个复选框使你可以:

  • 第一行包含列标题:如果你的CSV结构将第一行描述为每个字段的列名, 则应对此进行标记, 以免将第一行作为数据处理。
  • 在每个新程序包中包含标头:此选项指定第一行是否确实具有列标头, 然后每个输出文件也应包含标头。

在每个包的行数中, 你可以指定脚本可以处理的相当数量的行, 例如, 在我们的示例中, 理想的是250K的块。最后单击开始, 这样应用程序将开始将数据拆分为较小的块。以我们的7.514.701行(文件大小为〜25GB)的数据集示例为例, 结果是:

CSV分割器Windows 10

处理整个文件花了23分钟, 从原始文件中生成了30个块(文件)。输出文件如下所示:

CSV分割器输出

编码愉快❤️!

赞(0)
未经允许不得转载:srcmini » 如何在Windows 10中使用CSV拆分器将庞大的CSV数据集拆分为较小的文件

评论 抢沙发

评论前必须登录!