PythonのDatabricksを使用したデータフレームのフィルタリング方法


  1. 条件に基づくフィルタリング: データフレームを特定の条件に基づいてフィルタリングする方法です。例えば、特定の列の値がある範囲内にある行のみを抽出したい場合などに使用します。
# データフレームを作成する例
df = spark.createDataFrame([(1, 'apple'), (2, 'banana'), (3, 'orange')], ['id', 'fruit'])
# 条件に基づいてフィルタリングする例
filtered_df = df.filter(df['id'] > 1)
# 結果を表示する例
filtered_df.show()
  1. 文字列の一致によるフィルタリング: データフレームの特定の列の値が特定の文字列と一致する場合に行を抽出する方法です。
# 文字列の一致によるフィルタリングする例
filtered_df = df.filter(df['fruit'] == 'apple')
# 結果を表示する例
filtered_df.show()
  1. 複数の条件を組み合わせたフィルタリング: 複数の条件を組み合わせてデータフレームをフィルタリングする方法です。例えば、複数の列の値が特定の条件を満たす行を抽出する場合などに使用します。
# 複数の条件を組み合わせたフィルタリングする例
filtered_df = df.filter((df['id'] > 1) & (df['fruit'] == 'apple'))
# 結果を表示する例
filtered_df.show()

上記の手法とコード例を参考にしながら、Databricksを使用してデータフレームをフィルタリングする方法を実装してみてください。さらに、Databricksのドキュメントや公式ウェブサイトから詳細な情報を入手することもおすすめします。