- HTMLParser2を使用してテキストを抽出する基本的な方法:
const htmlparser = require("htmlparser2");
// HTMLテキストの例
const htmlText = "<html><body><h1>Hello, World!</h1><p>This is a paragraph.</p></body></html>";
// HTML解析器のインスタンスを作成
const parser = new htmlparser.Parser({
ontext: function(text) {
console.log(text);
}
}, { decodeEntities: true });
// HTMLテキストを解析
parser.write(htmlText);
parser.end();
上記のコードでは、ontext
コールバック関数を使用してテキストを抽出しています。この関数は、HTML要素のテキストコンテンツが見つかるたびに呼び出されます。
- 特定のHTML要素からテキストを抽出する方法:
上記のコードでは、onopentag
とonclosetag
コールバック関数を使用して、特定のHTML要素(<p>
要素)からテキストを抽出しています。