PySparkで列の合計を変数に格納する方法


まず、PySparkのデータフレームを作成します。

from pyspark.sql import SparkSession
# Sparkセッションの作成
spark = SparkSession.builder.getOrCreate()
# サンプルデータを含むデータフレームの作成
data = [("A", 10), ("B", 20), ("C", 30)]
df = spark.createDataFrame(data, ["col1", "considered_impact"])
df.show()

上記のコードでは、col1considered_impactという2つの列を持つデータフレームが作成されます。

次に、considered_impact列の合計を計算し、変数に格納します。

from pyspark.sql import functions as F
# 列の合計を計算して変数に格納
column_sum = df.agg(F.sum("considered_impact")).collect()[0][0]
print(column_sum)

上記のコードでは、agg関数とsum関数を使用してconsidered_impact列の合計を計算し、結果を変数column_sumに格納しています。

これで、considered_impact列の合計が変数column_sumに格納されました。

以上が、PySparkを使用して列の合計を変数に格納する方法の簡単な例です。この方法を応用して、他の列や複雑な計算も行うことができます。