正規表現を使用してUnicode文字を削除する方法


  1. Pythonを使用する場合:
import re
def remove_unicode(text):
    # 正規表現パターンを使用してUnicode文字を削除
    pattern = r'[^\x00-\x7F]+'
    cleaned_text = re.sub(pattern, '', text)
    return cleaned_text
# テスト用の文字列
text = "こんにちは!????"
cleaned_text = remove_unicode(text)
print(cleaned_text)  # 出力: こんにちは!
  1. JavaScriptを使用する場合:
function removeUnicode(text) {
  // 正規表現パターンを使用してUnicode文字を削除
  var pattern = /[^\x00-\x7F]+/g;
  var cleanedText = text.replace(pattern, '');
  return cleanedText;
}
// テスト用の文字列
var text = "こんにちは!????";
var cleanedText = removeUnicode(text);
console.log(cleanedText);  // 出力: こんにちは!

これらのコード例では、正規表現パターン [^\x00-\x7F]+ が使用されています。このパターンは、ASCII文字(0から127の範囲)以外のすべてのUnicode文字にマッチします。re.sub() または replace() メソッドを使用して、Unicode文字を空文字列に置換することで、文字列からUnicode文字を削除することができます。