正規表現のグループ化で不特定の文字列を抽出する方法

2022年4月18日

URLをコピーしました！

正規表現で決まった文字列を検索・抽出するのはそんなに難しくないが、文字列が表示されるパターンは決まっていても、アルファベットや数字、日本語など、どのような文字列が入るかわからない場合に抽出する方法をご紹介します！
今回はJavaScriptでの例ですが、PHPや他の言語でも活用できます。

起点となる文字列の検索

まず、例題となる文字列はこちらです。

var str = 'YYYYMMDDhhmmss Error: hogehoge, ServerName';

文字列の中には必ず[Error]という文字があり、その後にある[hogehoge]の部分が抽出したい可変の文字列があったとします。
そこで、まずは文字列の中に[Error]が含まれるかを検索します。
ここは決まった文字列なので、正規表現でなくても構いません。
今回は、以下を参考に2つの検索方法だけご紹介しておきます。

Qiita

【JavaScript】～を含むかのチェック - Qiita matchを使う方法 str.match(/文字列/)で、文字列が含まれれば配列、文字列が含まれなければnullが返ることを利用する。 if ( str.match(/hoge/)) { //strにhogeを含む場合...

1. [indexOf]で検索する

[indexOf]は検索して文字列が見つかった最初の場所（先頭は0）を数値で返します。
見つからなければ「-1」を返すので、これを利用して以下のように検索します。

if (str.indexOf('Error') !== -1) {
  ・・・
}

ビット反転演算子を使えば、もっとシンプルに記述できます。

if (~str.indexOf('Error')) {
  ・・・
}

2. [match]の正規表現で検索する

次は、今回のお題でもある文字列を抽出する際にも使用する[match]を利用した正規表現で検索します。
[match]は検索して文字列が見つかれば配列で返し、見つからなければnullを返します。

if (str.match('/Error/')) {
  ・・・
}

これで、文字列の中に[Error]が含まれているのが確認できましたので、その後ろにある不特定の文字列を抽出したいと思います。

不特定の文字列を抽出する

それでは、以下の参考サイトを例に文字列に[Error]が含まれているのを確認しましたので、後ろの[hogehoge]のみを抽出してみましょう。

小粋空間

JavaScriptの正規表現で文字列を抜き出す「グループ化」 JavaScriptの正規表現で特定の文字列を抜き出す「グループ化」について解説します。グループ化により抜き出した文字列の配列への設定ルールなどについても説明しています。...

検索でも利用した[match]と、正規表現のグループ化を使います。
おさらいですが、[match]は検索で見つかった文字列を配列で返します。
そこで、検索結果を変数に入れて出力してみましょう。
[Error]を起点にしないと何処に[hogehoge]があるかわからないので、このようになりますよね？

var result = str.match('/Error: .*,/');

こちらは「Error: 」の後に「.*」何らかの文字列があり「,」で終わる箇所を抽出しています。
しかし、これをそのまま[result]の結果を出力すると、

Error: hogehoge,

と表示されてしまいます。
[Error]は抽出したい文字列の場所を示すために必要だけれど、出力するのは「hogehoge」だけにしたい！
そんな時に、正規表現のグループ化を利用して[match]の結果を配列に入れてあげましょう。
方法は簡単で、正規表現の中で抽出したい文字列の部分を括弧()で囲んであげます。

var result = str.match('/Error: (.*),/');

こちらの出力結果は以下のようになります。

result[0] → Error: hogehoge,
result[1] → hogehoge

これで配列の[1]だけを返せば[hogehoge]が抽出できますね！
この方法を使えば、[Error]の後に例えどんな文字列が入ってきても抽出できます。

var str = 'YYYYMMDDhhmmss Error: azAZ09あんアン安, ServerName';
if (~str.indexOf('Error')) {
  var result = str.match('/Error: (.*),/');
}

結果はもちろんこのようになります。

result[0] → Error: azAZ09あんアン安,
result[1] → azAZ09あんアン安

正規表現とグループ化の応用

最後に、例題の日時（YYYYMMDDhhmmss）やサーバー名（ServerName）も[match]の配列として取得してみましょう！

var str = '20220222222222 Error: fugafuga, ServerName';
var result = str.match('/^([0-9]{14}) Error: (.*), (.*)$/');

こちらの正規表現では3つグループ化していますね。
結果はこのようになります。

result[0] → 20220222222222 Error: fugafuga, ServerName
result[1] → 20220222222222
result[2] → fugafuga
result[3] → ServerName

もう分かりましたね！
以上、正規表現のグループ化を用いた文字列の抽出方法でした！

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

正規表現のグループ化で不特定の文字列を抽出する方法

起点となる文字列の検索

1. [indexOf]で検索する

2. [match]の正規表現で検索する

不特定の文字列を抽出する

正規表現とグループ化の応用

コメント

コメントするコメントをキャンセル

ホーム画面に追加してください！

正規表現のグループ化で不特定の文字列を抽出する方法

起点となる文字列の検索

1. [indexOf]で検索する

2. [match]の正規表現で検索する

不特定の文字列を抽出する

正規表現とグループ化の応用

コメント

コメントする コメントをキャンセル

ホーム画面に追加してください！

コメントするコメントをキャンセル