ウェブ上にある台詞を抜き取ってみたかったので、正規表現の勉強がてらやってみました。
取りたいのは、「」で囲まれた任意の文字です。
$match = array();
$html = file_get_contents("任意のURL");
preg_match_all("/「(.+?)」/",$html,$match);
print_r($match);
今日新しく覚えたのが、file_get_contents()。
指定したURLのデータをテキストにして持ってきてくれるみたいです。
わーお、便利だな。
で、とってきたデータをpreg_match_all()で解析して、「」の中を取り出します。
指定したURLの中に複数の「」で囲まれた台詞があった場合、ひとつづつ配列に入れていきます。
これがpreg_match()だと、ひとつめの台詞を取った時点で終わります。
よく分からないパターンの書き方
今回は色々試行錯誤した結果、/「(.+?)」/っていうパターンで上手くいきました。
いやー この辺は実際まだよく分からない・・・。
勉強勉強と。
LIGはWebサイト制作を支援しています。ご興味のある方は事業ぺージをぜひご覧ください。