Wget
Некоторые сайты не позволяют скачивать файлы роботам[1] и wget получает только индексный файл index.htm. В этом случае запускаем его с параметром -e robots=off. Пример:
wget -r http://public-yum.oracle.com/repo/EnterpriseLinux/EL5/addons/x86_64/ -e robots=off
Можно также представиться каким-нибудь браузером:
wget -m -k -U "Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.9.0.2) Gecko/20121223 Ubuntu/9.25 (jaunty) Firefox/3.8" "http://public-yum.oracle.com/repo/EnterpriseLinux/EL5/addons/x86_64/" -e robots=off
Сноски
- ↑ Для этого в robots.txt можно указать:
User-agent: * Disallow: /
Подробней см http://en.wikipedia.org/wiki/Robots_exclusion_standard