-
chunksize
パラメータを使用する方法:pd.read_csv()
やpd.read_excel()
などの関数でデータを読み込む際に、chunksize
パラメータを指定することで、指定したサイズごとにデータを分割して読み込むことができます。以下はその例です。import pandas as pd chunk_size = 1000 # チャンクのサイズ for chunk in pd.read_csv('data.csv', chunksize=chunk_size): # チャンクごとにデータを処理するコードを記述する # 例: データの統計量を計算する print(chunk.describe())
-
イテレータでデータを読み込む方法:
pd.read_csv()
やpd.read_excel()
の返り値は、データフレームではなくTextFileReader
オブジェクトです。このオブジェクトをイテレータとして使用することで、データをチャンクごとに読み込むことができます。以下はその例です。import pandas as pd reader = pd.read_csv('data.csv', chunksize=1000) # イテレータを作成する for chunk in reader: # チャンクごとにデータを処理するコードを記述する # 例: データの統計量を計算する print(chunk.describe())
これらの方法を使用することで、大規模なデータセットをチャンクごとに効率的に読み込むことができます。データ処理や分析のパフォーマンスを向上させるために、思い切って試してみてください。また、データの処理方法や分析の内容に応じて、適切なチャンクサイズを選択することも重要です。