Pandasを使用したCSVの圧縮方法


  1. gzipを使用した圧縮:

    import pandas as pd
    df = pd.read_csv('input.csv')
    df.to_csv('compressed.csv.gz', compression='gzip', index=False)

    上記のコードでは、read_csv関数を使用して元のCSVファイルを読み込み、to_csv関数を使用して圧縮されたCSVファイルを出力します。compressionパラメータを'gzip'に設定することで、gzip形式で圧縮されます。

  2. zipを使用した圧縮:

    import pandas as pd
    import zipfile
    df = pd.read_csv('input.csv')
    with zipfile.ZipFile('compressed.zip', 'w') as zf:
    zf.writestr('compressed.csv', df.to_csv(index=False))

    上記のコードでは、zipfileモジュールを使用してzip形式で圧縮します。writestrメソッドを使用して、to_csv関数で生成されるCSVデータを直接zipファイルに書き込んでいます。

他にも、bz2やxzなどの圧縮形式を使用することもできます。適切な圧縮形式は、データの性質や利用環境によって異なる場合があります。

以上が、Pandasを使用してCSVファイルを圧縮する方法とコード例の紹介です。データの圧縮は効果的なデータ管理の手段の一つであり、大規模なデータ処理やストレージの最適化に役立ちます。