Python Web Scraping: загрузите и отобразите содержимое robot.txt для en.wikipedia.org
Python Web Scraping: упражнение-2 с решением
Напишите программу на Python для загрузки и отображения содержимого robot.txt для en.wikipedia.org.
Пример решения : -
Код Python:
import requests
response = requests.get("https://en.wikipedia.org/robots.txt")
test = response.text
print("robots.txt for http://www.wikipedia.org/")
print("===================================================")
print(test)
Выход:
robots.txt для http://www.wikipedia.org/ ================================================== знак равно # robots.txt для http://www.wikipedia.org/ и друзей # # Обратите внимание: на этом сайте есть много страниц, и есть # некоторые плохо себя ведущие пауки там, которые идут _way_ слишком быстро. Если вы # безответственно, ваш доступ к сайту может быть заблокирован. # # Наблюдается спам большим количеством https://en.wikipedia.org/?curid=NNNNNN # и игнорируя 429 ответов с ограничением скорости, претензии к роботам: # http://mj12bot.com/ Пользователь-агент: MJ12bot Disallow: / # рекламные боты: Пользователь-агент: Mediapartners-Google * Disallow: / # Википедия работы ботов: Пользователь-агент: IsraBot Disallow: Пользователь-агент: Orthogaffe Disallow: # Гусеницы, которые достаточно любезны, чтобы повиноваться, но которых мы бы предпочли не иметь # если они не кормят поисковые системы. Пользователь-агент: UbiCrawler Disallow: / Пользователь-агент: DOC Disallow: / Пользователь-агент: Zao Disallow: / # Известно, что некоторые боты создают проблемы, особенно те, которые предназначены для копирования # целых сайтов. Пожалуйста, соблюдайте robots.txt. Пользователь-агент: sitecheck.internetseer.com Disallow: / Пользователь-агент: Zealbot Disallow: / ............ # Disallow: / Вики / Википедия: Article_Incubator Disallow: / wiki / Wikipedia% 3AArticle_Incubator Disallow: / wiki / Wikipedia_talk: Article_Incubator Disallow: / wiki / Wikipedia_talk% 3AArticle_Incubator # Disallow: / wiki / Категория: Noindexed_pages Disallow: / wiki / Категория% 3ANoindexed_pages # #
Блок - схема:
Редактор кода Python:
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу на Python, чтобы проверить, найдена ли данная страница на сервере или нет.
Далее: Напишите программу на Python, чтобы получить количество наборов данных, которые в данный момент перечислены на data.gov.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code