スクレイピング&正規表現でゴリゴリ

HTMLの解析。特定のタグを取り出すために使われる手法が正規表現。
PHPなので、「preg_match」とかを使う。

PHPには正規表現を扱う関数として、「ereg_」系と「preg_」系が用意されてて、校舎はperl互換。それだけでなく、後者のほうが機能的に満足いく結果が得られる場合が多い(というか、使いやすい)。

で、こんなやつ。

     $pattern = '|<a href=["\']([^"\']+)["\'][^>]*>([^<]+)<|i'; 
     preg_match_all( $pattern,      $contents, $out,     PREG_SET_ORDER);

もちろん、aタグをひっかける。「()」で囲まれている部分はあとで参照できる。URLと、アンカーが拾えるというわけだ。

しかし、これではひっかからないものもある。「href」属性の前に「class」属性だとか「id」属性が来たら、もうこれにはひっかからない。

で、別の方法を考えなくてならなくなるわけだ。まあ、そんな感じでいろいろあるわけです。

Android用アプリ開発ツールがすごい

このへんから。

Google、誰でもAndroidアプリを開発できるツール「App Inventor」 – ITmedia News
Google、コードを書かずにAndroidアプリが作れる App Inventorを公開
Google、Android向けWYSIWYG開発ツール、App Inventorを発表―その影響は?
Googleがケータイアプリ簡単作成ツール=だれでもプログラマー時代到来?【湯川】 : TechWave
App Inventor for Android
Android App InventorにはTwitterへのシームレスな連携機能あり―さらにサードパーティーが連携機能を開発するツール提供へ
Android プログラミングがスゴい « maclalala2

グラフィカルな開発環境といったところ。

ほとんどコード書かなくていい感じ。
とはいえ、往年のVisual Basicを思い出さないこともないです。

セルフブックマーク

はてなブックマークで、自分のブログエントリーをブックマークする行為をセルフブックマークとか「セルクマ」とか「じっくま」(自クマか?)などと呼ぶようです。

ほかのソーシャルブックマークでも同じでしょうか?

その現場を目撃。

新着にあがってきていたある記事。ブックマークしているのは「○○526」とかいう名前が3つ(○○○の部分は異なる)。おそらく同じ人なんででしょう。

数分後には新着から消えていました。そのへんはちゃんと自動ではねるよう処理しているのでしょう。

自分も3つのアカウントで試しました(新着にあがるのは3以上なので)。先週やったときは成功。自分の3つで新着に登場。それを見た人が20人近く登録してくれました。ナイス!

と思い、今週もやってみたのですが、見事失敗。間隔が短かったのが敗因でしょうか。残念。

というわけで、うまく行く条件なんかを知ってる人は教えてほしいです。って、こんなんしちゃだめですよ。

こうした行為を意味のないものにするために、同じIPアドレスからの連続とか、短時間で急に増えるような不自然なものは排除している、とかいう記事を読んだこともある。