Wget

From SysadminWiki.ru
Jump to: navigation, search

Некоторые сайты не позволяют скачивать файлы роботам[1] и wget получает только индексный файл index.htm. В этом случае запускаем его с параметром -e robots=off. Пример:

wget -r http://public-yum.oracle.com/repo/EnterpriseLinux/EL5/addons/x86_64/ -e robots=off

Можно также представиться каким-нибудь браузером:

wget -m -k -U "Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.9.0.2) Gecko/20121223 Ubuntu/9.25 (jaunty) Firefox/3.8" "http://public-yum.oracle.com/repo/EnterpriseLinux/EL5/addons/x86_64/" -e robots=off

Сноски


  1. Для этого в robots.txt можно указать:
     User-agent: *
     Disallow: /

    Подробней см http://en.wikipedia.org/wiki/Robots_exclusion_standard