-
単一の列の重複値を削除する場合:
df.drop_duplicates(subset='column_name', keep='first', inplace=True)
このコードでは、'column_name'には重複値をチェックする列の名前を指定します。'keep'パラメータは、重複値のうちどの値を保持するかを指定します。'first'を指定すると最初の値が保持され、他の値は削除されます。'inplace=True'を指定すると、元のデータフレームが変更されます。
-
複数の列の組み合わせで重複値を削除する場合:
df.drop_duplicates(subset=['column1', 'column2'], keep='first', inplace=True)
このコードでは、'column1'と'column2'の組み合わせで重複値をチェックします。他のパラメータの意味は上記の例と同じです。
-
データフレーム全体の重複値を削除する場合:
df.drop_duplicates(keep='first', inplace=True)
'subset'パラメータを指定しない場合、データフレーム全体で重複値をチェックします。
これらのコード例を使って、Pandasを使用してデータフレームから重複する値を削除することができます。データセットに応じて最適な方法を選択してください。また、削除された重複値に関する情報を確認したい場合は、適宜ログや出力を追加することもできます。