ディレクトリ内のすべての Word 文書ファイル(.doc または .docx)の単語数をカウントする方法についていくつかの方法を説明します。以下に、Python を使用したコード例を示します。
方法 1: python-docx ライブラリを使用する方法
python-docx ライブラリは、Word 文書を操作するための強力なツールです。次の手順で単語数をカウントできます。
-
python-docx ライブラリをインストールします:
pip install python-docx
-
次のコードを使用して、指定されたディレクトリ内のすべての Word 文書ファイルの単語数をカウントします:
import os from docx import Document def count_words_in_directory(directory): total_words = 0 for filename in os.listdir(directory): if filename.endswith(".doc") or filename.endswith(".docx"): file_path = os.path.join(directory, filename) doc = Document(file_path) total_words += sum(len(p.text.split()) for p in doc.paragraphs) return total_words directory_path = "指定したディレクトリのパス" word_count = count_words_in_directory(directory_path) print("総単語数:", word_count)
上記のコードでは、指定したディレクトリ内のすべてのファイルに対して、.doc または .docx の拡張子を持つファイルをフィルタリングしています。それぞれのファイルを開き、段落ごとに単語数をカウントし、最終的な総単語数を計算しています。
方法 2: python-docx2txt ライブラリを使用する方法
python-docx2txt ライブラリは、python-docx よりも軽量で単純なライブラリです。次の手順で単語数をカウントできます。
-
python-docx2txt ライブラリをインストールします:
pip install docx2txt
-
次のコードを使用して、指定されたディレクトリ内のすべての Word 文書ファイルの単語数をカウントします:
import os import docx2txt def count_words_in_directory(directory): total_words = 0 for filename in os.listdir(directory): if filename.endswith(".doc") or filename.endswith(".docx"): file_path = os.path.join(directory, filename) text = docx2txt.process(file_path) total_words += len(text.split()) return total_words directory_path = "指定したディレクトリのパス" word_count = count_words_in_directory(directory_path) print("総単語数:", word_count)
上記のコードでは、指定したディレクトリ内のすべてのファイルに対して、.doc または .docx の拡張子を持つファイルをフィルタリングしています。それぞれのファイルをテキストとして抽出し、単語数をカウントしています。
これらの方法を使用すると、指定したディレクトリ内のすべての Word 文書ファイルの総単語数をカウントできます。適宜、ディレクトリのパスを指定してコードを実行してください。