scraping

WWW::Mechanizeで Basic認証

ちょっと必要になったので調べてみた。 my $mech = WWW::Mechanize->new(); $mech->credentials( username => password ); $mech->get($url); credentialsメソッドでユーザ名、パスワードを指定 してあとは通常通り getメソッドで urlを取得という ことでい…

WWW::Mechanizeを使ってみた

毎度お馴染み画像取得スクリプト #!/usr/bin/perl use strict; use warnings; use Time::HiRes; use IO::Handle; use File::Basename; use WWW::Mechanize; my $url = shift @ARGV or die "Error: please input url\n"; my $mech = WWW::Mechanize->new(); $…

HTML::TreeBuilder::XPathを使ってみた。

XPathを知りたくてというか実践したくて使ってみた。 返り値となるオブジェクトがいろいろとでてきてわからないが、 そんなときは refとか isaで型をチェックして、ドキュメントを見て ということを繰り返せばなんとかなる。以下毎度お馴染みのサンプルです…

HTML::TokeParserを使ってみる

いろいろと HTMLを解析することがあるけど、最近はほとんどテンプレートから 生成されたものなので、正規表現で簡単にかけることが多い。でもたまに、 手書きだったり、オーサリングツール使っていたりするサイトだと、微妙に 属性の順番が変わっていたり、…

HTML::Parserを使ってみる

HTTP::Messageのソースコードを読んでるときに, HTML::Parserが使われて いたので perldocを読んでサンプルコードを書いてみた。 イベントドリブンなツールなんで毛嫌いしていたところもありますけど、 そんなに難しくなかった。ただコンストラクタが若干あ…