TsubuanっぽいAPIを自分でつくる
抽出するところをせっかく作ったので、Tsubuanっぽい動作をするCGIも作ってみた。HTML吐いてるところはお好みでどうぞ。$result->{text}を出力するとTsubuan互換になるはず。そしてengineにTagStructureを使うとさらに性能アップ。
tsubuanlike.cgi
#!/usr/bin/perl use strict; use warnings; use utf8; use HTML::Feature; use URI::Escape; my $url = $ENV{QUERY_STRING}; die unless ($url); $url =~ s/^url\=//; $url = uri_unescape($url); my $feature = HTML::Feature->new( engine => 'TsubuanLike', enc_type => 'utf-8', ); my $result = $feature->parse($url); print "Content-Type: text/xml;charset=utf-8\n\n"; print '<Result><![CDATA['.$result->{html}."]]></Result>\n";