スクレイピング＆正規表現でゴリゴリ

HTMLの解析。特定のタグを取り出すために使われる手法が正規表現。
PHPなので、「preg_match」とかを使う。

PHPには正規表現を扱う関数として、「ereg_」系と「preg_」系が用意されてて、校舎はperl互換。それだけでなく、後者のほうが機能的に満足いく結果が得られる場合が多い（というか、使いやすい）。

で、こんなやつ。

     $pattern = '|<a href=["\']([^"\']+)["\'][^>]*>([^<]+)<|i'; 
     preg_match_all( $pattern,      $contents, $out,     PREG_SET_ORDER);

もちろん、aタグをひっかける。「()」で囲まれている部分はあとで参照できる。URLと、アンカーが拾えるというわけだ。

しかし、これではひっかからないものもある。「href」属性の前に「class」属性だとか「id」属性が来たら、もうこれにはひっかからない。

で、別の方法を考えなくてならなくなるわけだ。まあ、そんな感じでいろいろあるわけです。

Android用アプリ開発ツールがすごい

このへんから。

グラフィカルな開発環境といったところ。

ほとんどコード書かなくていい感じ。
とはいえ、往年のVisual Basicを思い出さないこともないです。

はてなブックマークで、自分のブログエントリーをブックマークする行為をセルフブックマークとか「セルクマ」とか「じっくま」（自クマか？）などと呼ぶようです。

ほかのソーシャルブックマークでも同じでしょうか？

その現場を目撃。

新着にあがってきていたある記事。ブックマークしているのは「○○526」とかいう名前が3つ（○○○の部分は異なる）。おそらく同じ人なんででしょう。

数分後には新着から消えていました。そのへんはちゃんと自動ではねるよう処理しているのでしょう。

自分も3つのアカウントで試しました（新着にあがるのは3以上なので）。先週やったときは成功。自分の3つで新着に登場。それを見た人が20人近く登録してくれました。ナイス！

と思い、今週もやってみたのですが、見事失敗。間隔が短かったのが敗因でしょうか。残念。

というわけで、うまく行く条件なんかを知ってる人は教えてほしいです。って、こんなんしちゃだめですよ。

こうした行為を意味のないものにするために、同じIPアドレスからの連続とか、短時間で急に増えるような不自然なものは排除している、とかいう記事を読んだこともある。