HTMLParser2を使用してHTMLからテキストを抽出する方法


  1. HTMLParser2を使用してテキストを抽出する基本的な方法:
const htmlparser = require("htmlparser2");
// HTMLテキストの例
const htmlText = "<html><body><h1>Hello, World!</h1><p>This is a paragraph.</p></body></html>";
// HTML解析器のインスタンスを作成
const parser = new htmlparser.Parser({
  ontext: function(text) {
    console.log(text);
  }
}, { decodeEntities: true });
// HTMLテキストを解析
parser.write(htmlText);
parser.end();

上記のコードでは、ontextコールバック関数を使用してテキストを抽出しています。この関数は、HTML要素のテキストコンテンツが見つかるたびに呼び出されます。

  1. 特定のHTML要素からテキストを抽出する方法:

上記のコードでは、onopentagonclosetagコールバック関数を使用して、特定のHTML要素(<p>要素)からテキストを抽出しています。