node.jsで簡単クローリング

cheerioを使うと、jQueryのようなセレクタでクローリングできます。

具体的には、以下のように使います。

var cheerio = require("cheerio");
var fs = require("fs");
var sys = require("sys");
var http = require("http");
var url = require("url");

function callRequest() {
 var requestUrl = "http://hogehoge.com";
 var pUrl = url.parse(requestUrl);

 var options = {
   host: pUrl.hostname,
   port: 80,
   path: pUrl.path,
   method: 'GET',
   headers: {
     'Cookie': "PHPSESSID=fugafuga; path=/"
   }
 };

 var req = http.request(options, function (res) {
   res.on('data', function(chunk) {
     $ = cheerio.load(chunk);
     $("#testId .testClass tastTag").each(function(){
       console.log($(this).text());
     });
   });
 });

 req.end();
}
callRequest();