如何将一个CSV格式的文件分割成两个CSV文件

作者:酷酷的橙007 时间:2022-02-17 01:24:29 

将一个CSV格式的文件分割成两个CSV文件

本项目可以按照比例将一个csv文件分割成两个csv文件,效果是:在C:\algo_file文件夹下,将该文件夹下的data.csv文件分成train.csv和vali.csv

完整代码:

定义split_csv函数

import csv
import os
def split_csv(path, total_len, per):
   # 如果train.csv和vali.csv存在就删除
   if os.path.exists('C:\\algo_file\\train.csv'):
       os.remove('C:\\algo_file\\train.csv')
   if os.path.exists('C:\\algo_file\\vali.csv'):
       os.remove('C:\\algo_file\\vali.csv')
   with open(path, 'r', newline='') as file:
       csvreader = csv.reader(file)
       i = 0
       for row in csvreader:
           if i < round(total_len * per/100):
               # train.csv存放路径
               csv_path = os.path.join("C:\\algo_file", 'train.csv')
               print(csv_path)
               # 不存在此文件的时候,就创建
               if not os.path.exists(csv_path):
                   with open(csv_path, 'w', newline='') as file:
                       csvwriter = csv.writer(file)
                       csvwriter.writerow(row)
                   i += 1
               # 存在的时候就往里面添加
               else:
                   with open(csv_path, 'a', newline='') as file:
                       csvwriter = csv.writer(file)
                       csvwriter.writerow(row)
                   i += 1
           elif (i >= round(total_len * per/100)) and (i < total_len):
           # vali.csv存放路径
               csv_path = os.path.join("C:\\algo_file", 'vali.csv')
               print(csv_path)
               # 不存在此文件的时候,就创建
               if not os.path.exists(csv_path):
                   with open(csv_path, 'w', newline='') as file:
                       csvwriter = csv.writer(file)
                       csvwriter.writerow(row)
                   i += 1
               # 存在的时候就往里面添加
               else:
                   with open(csv_path, 'a', newline='') as file:
                       csvwriter = csv.writer(file)
                       csvwriter.writerow(row)
                   i += 1
           else:
               break
   print("训练集和验证集分离成功")
   return

调用上述函数

if __name__ == '__main__':
    path = 'C:\\algo_file\\data.csv'
    total_len = len(open(path, 'r').readlines())# csv文件行数
    per = 80 # 分割比例%
    split_csv(path, total_len, per)

按照训练集占80%(验证集20%)比例,对C:\algo_file文件夹下的data.csv进行分割,在该文件下得到train.csv 和 vali.csv。

最后

本项目只是以C:\algo_file文件夹为例,实际上data.csv所在路径,train.csv所在路径,vali.csv所在路径包括文件名都可以更改。 

将CSV文件以某列为条件分类切割

项目中有一个数据文件数量庞大,一个文件中按照年月日分成几十万条数据,想试试能不能用python把它简单切割一下,按照日期分类切成小的csv文件。

于是在网上找了很多资料,结合自己的一些修改,整理了一下,方便以后再用。

大概步骤

1、读取文件

2、找出需要分类的列

3、将此列中重复的内容删除,每类剩余一条

4、把该列所有符合某一类的内容存入一个csv文件中

上代码 

import pandas as pd
# 读取文件数据
df=pd.read_csv('D:\\接收的文件\\lqf.csv', sep=',',engine='python',header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
#  删除date列中的重复项,也就是说剩下的date都是已经分好的类别
date_cate = df.drop_duplicates(subset=['date'])
print(date_cate.date)
print(range(len(date_cate)))    # date中的所有类,也就是文件数
for name in date_cate.date:
   print(name)
   # 当date为某一个类时,存入一个小的csv文件中,文件名为类名
   df[df.date == name].to_csv("D:\\接收的文件\\data\\"+u"%s" %name+".csv")

header=[0] #代表第一行为表头不计入其中,可根据表格修改。

!!!!!!(2)!!!!!!遍历文件夹中所有的文件然后进行切割,没啥用,自己做个存档而已 &darr;&darr;&darr;&darr;&darr; 

import pandas as pd
import os
j = 347
for info in os.listdir('D:\\接收的文件\year_02'):
   domain = os.path.abspath(r'D:\\接收的文件\year_02') # 获取文件夹的路径
   info = os.path.join(domain, info) # 将路径与文件名结合起来就是每个文件的完整路径
   # 读取文件数据
   df = pd.read_csv(info, sep=',', engine='python', header=[0])
   # 列csv文件中所有列
   df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
   grouped = df.groupby('date')
   # delete duplicated data
   ind_frame = df.drop_duplicates(subset=['date'])
   # print(ind_frame.date)
   # print(range(len(ind_frame)))
   for name in ind_frame.date:
       # print(name)
       j += 1
       print("已经扫描到第" + '{}'.format(j)+'个文件')
       df[df.date == name].to_csv("D:\\接收的文件\\data2\\" + u"%s" %name+".csv")

来源:https://blog.csdn.net/xiecheng1995/article/details/92431204

标签:CSV格式,文件分割,CSV文件
0
投稿

猜你喜欢

  • 适合所有网站的rss和xml聚合功能asp代码

    2011-04-06 11:19:00
  • pytorch 图像中的数据预处理和批标准化实例

    2023-07-16 15:08:12
  • 再谈 Web 字体的现状与未来[译]

    2009-11-24 13:55:00
  • php获取当前时间的毫秒数的方法

    2023-06-28 06:43:37
  • Div+CSS布局入门教程

    2007-09-13 12:52:00
  • 40个网页设计常用小代码

    2008-01-01 19:27:00
  • 如何用表单的方式推送请求的信息?

    2010-06-16 09:47:00
  • 基于Python制作短信发送程序

    2022-06-19 16:47:25
  • CentOS 6/7环境下通过yum安装php7的方法

    2023-11-23 11:08:02
  • Python多进程分块读取超大文件的方法

    2023-12-07 02:19:28
  • Python反射和内置方法重写操作详解

    2023-07-06 12:00:02
  • Python PyQt5实战项目之查询器的实现流程详解

    2023-07-15 04:19:21
  • PHP PDOStatement::getAttribute讲解

    2023-06-05 07:29:31
  • 网红编程语言Python将纳入高考你怎么看?

    2022-06-28 15:48:12
  • 简单form标准化实例——语义结构

    2007-06-20 16:32:00
  • Python调用飞书发送消息的示例

    2022-10-20 14:21:23
  • 使用Template格式化Python字符串的方法

    2021-08-07 14:42:35
  • Django 日志配置按日期滚动的方法

    2021-02-02 08:27:01
  • python logging日志模块的详解

    2021-04-27 19:16:55
  • Python 编程语言详细介绍

    2022-08-21 08:39:27
  • asp之家 网络编程 m.aspxhome.com