2007-10-01から1ヶ月間の記事一覧

HTML::FeaturedImage - URLに含まれる画像のうち、重要そうなものを取り出すためのPerlモジュール

yuisekiが「エントリのメイン画像抽出があるといいかも」と言ってたときに、昼飯まで暇だったので作った。結果のサンプルはこちら。 仕組みはてきとう。まずURLをたくさん与え、その先にある画像の数を数える。たくさんのページにでてきたり、何度もおなじペ…

TsubuanっぽいAPIを自分でつくる

抽出するところをせっかく作ったので、Tsubuanっぽい動作をするCGIも作ってみた。HTML吐いてるところはお好みでどうぞ。$result->{text}を出力するとTsubuan互換になるはず。そしてengineにTagStructureを使うとさらに性能アップ。 tsubuanlike.cgi #!/usr/b…

HTML::Feature::Engine::TsubuanLike

Tsubuanが死んでて困ってるところにHTML::Featureが来てこれで勝つる!とおもったけどHTML::Elementで返してくれるのがやっぱり欲しいので、TsubuanっぽいアルゴリズムでEngineを実装してみた。Tsubuanの基礎となるタグ/テキスト比をつかったアルゴリズムは…

Livedoor Readerのピンをフィードに変換し、またLDRで読むためのシステム

LDRのピンを100本以上刺し、Atomフィードを吐いて、/pin/clearコマンドで保存したり、LDRでゆっくり読み直したりするためのツールを書いたので、ソースを晒してみる。APIの乗っ取りにはPlaggerLDRで使用されているHack LDR APIというGM User Scriptをちょっ…

新デザインになったマイミク最新日記をEntryFullTextだけで読む

mixiにログイン済みのCookieが必須なのでこれが使える環境の人はあまりいないと思うけど。今回のデザイン変更は主にmixi廃人方面からいろいろ言われているけど、こんなのがサクッと書けるようになったことに関してはとても良かったですね。 author追加と、ti…