Web Spidering Dengan Gem Spidr
• Kunto Aji - Last modified atSpidr adalah library Ruby web spider yang bersifat serba guna yang didesain agar mudah digunakan dan cepat pada saat pemrosesan. Spidr dapat melakukan spider / crawling pada tag a, iframe, dan frame di sebuah atau banyak domain sekaligus dimana menggunakan Nokogiri untuk melakukan parsing HTML pada halaman web yang dikunjungi.
Fitur Spidr favorit saya adalah untuk cek url-url yang not found atau tidak dapat ditemukan seperti berikut.
url_map = Hash.new { |hash,key| hash[key] = [] }
spider = Spidr.site('http://intranet.com/') do |spider|
spider.every_link do |origin,dest|
url_map[dest] << origin
end
end
spider.failures.each do |url|
puts "Broken link #{url} found in:"
url_map[url].each { |page| puts " #{page}" }
end