Pandasのチャンクごとの読み込み方法


  1. chunksizeパラメータを使用する方法: pd.read_csv()pd.read_excel()などの関数でデータを読み込む際に、chunksizeパラメータを指定することで、指定したサイズごとにデータを分割して読み込むことができます。以下はその例です。

    import pandas as pd
    chunk_size = 1000  # チャンクのサイズ
    for chunk in pd.read_csv('data.csv', chunksize=chunk_size):
       # チャンクごとにデータを処理するコードを記述する
       # 例: データの統計量を計算する
       print(chunk.describe())
  2. イテレータでデータを読み込む方法: pd.read_csv()pd.read_excel()の返り値は、データフレームではなくTextFileReaderオブジェクトです。このオブジェクトをイテレータとして使用することで、データをチャンクごとに読み込むことができます。以下はその例です。

    import pandas as pd
    reader = pd.read_csv('data.csv', chunksize=1000)  # イテレータを作成する
    for chunk in reader:
       # チャンクごとにデータを処理するコードを記述する
       # 例: データの統計量を計算する
       print(chunk.describe())

これらの方法を使用することで、大規模なデータセットをチャンクごとに効率的に読み込むことができます。データ処理や分析のパフォーマンスを向上させるために、思い切って試してみてください。また、データの処理方法や分析の内容に応じて、適切なチャンクサイズを選択することも重要です。