まず、PySparkのデータフレームを作成します。
from pyspark.sql import SparkSession
# Sparkセッションの作成
spark = SparkSession.builder.getOrCreate()
# サンプルデータを含むデータフレームの作成
data = [("A", 10), ("B", 20), ("C", 30)]
df = spark.createDataFrame(data, ["col1", "considered_impact"])
df.show()
上記のコードでは、col1
とconsidered_impact
という2つの列を持つデータフレームが作成されます。
次に、considered_impact
列の合計を計算し、変数に格納します。
from pyspark.sql import functions as F
# 列の合計を計算して変数に格納
column_sum = df.agg(F.sum("considered_impact")).collect()[0][0]
print(column_sum)
上記のコードでは、agg
関数とsum
関数を使用してconsidered_impact
列の合計を計算し、結果を変数column_sum
に格納しています。
これで、considered_impact
列の合計が変数column_sum
に格納されました。
以上が、PySparkを使用して列の合計を変数に格納する方法の簡単な例です。この方法を応用して、他の列や複雑な計算も行うことができます。