PySparkで列を選択する方法


  1. 単一の列を選択する方法:

    selected_df = df.select("column_name")

    上記のコードでは、"column_name"には選択したい列の名前を指定します。選択された列を含む新しいデータフレームが作成されます。

  2. 複数の列を選択する方法:

    selected_df = df.select("column_name1", "column_name2")

    上記のコードでは、複数の列の名前をカンマで区切って指定します。選択された列を含む新しいデータフレームが作成されます。

  3. 特定の条件に基づいて列を選択する方法:

    selected_df = df.filter(condition).select("column_name")

    上記のコードでは、"condition"には特定の条件を指定します。条件に一致する行だけが残り、その行から指定した列が選択されます。

これらの方法を使用すると、PySparkでデータフレームの列を簡単に選択できます。適切な列を選択することで、データ処理や分析の効率を向上させることができます。