-
単一の列を選択する方法:
selected_df = df.select("column_name")
上記のコードでは、"column_name"には選択したい列の名前を指定します。選択された列を含む新しいデータフレームが作成されます。
-
複数の列を選択する方法:
selected_df = df.select("column_name1", "column_name2")
上記のコードでは、複数の列の名前をカンマで区切って指定します。選択された列を含む新しいデータフレームが作成されます。
-
特定の条件に基づいて列を選択する方法:
selected_df = df.filter(condition).select("column_name")
上記のコードでは、"condition"には特定の条件を指定します。条件に一致する行だけが残り、その行から指定した列が選択されます。
これらの方法を使用すると、PySparkでデータフレームの列を簡単に選択できます。適切な列を選択することで、データ処理や分析の効率を向上させることができます。