кодесурса
«Python

Python Web Scraping: загрузите и отобразите содержимое robot.txt для en.wikipedia.org

script1adsense2code
script1adsense3code

Python Web Scraping: упражнение-2 с решением

Напишите программу на Python для загрузки и отображения содержимого robot.txt для en.wikipedia.org.

Пример решения : -

Код Python:

import requests
response = requests.get("https://en.wikipedia.org/robots.txt")
test = response.text
print("robots.txt for http://www.wikipedia.org/")
print("===================================================")
print(test)

Выход:

 robots.txt для http://www.wikipedia.org/
================================================== знак равно
# robots.txt для http://www.wikipedia.org/ и друзей
#
# Обратите внимание: на этом сайте есть много страниц, и есть
# некоторые плохо себя ведущие пауки там, которые идут _way_ слишком быстро. Если вы
# безответственно, ваш доступ к сайту может быть заблокирован.
#
# Наблюдается спам большим количеством https://en.wikipedia.org/?curid=NNNNNN
# и игнорируя 429 ответов с ограничением скорости, претензии к роботам:
# http://mj12bot.com/
Пользователь-агент: MJ12bot
Disallow: /
# рекламные боты:
Пользователь-агент: Mediapartners-Google *
Disallow: /
# Википедия работы ботов:
Пользователь-агент: IsraBot
Disallow:
Пользователь-агент: Orthogaffe
Disallow:
# Гусеницы, которые достаточно любезны, чтобы повиноваться, но которых мы бы предпочли не иметь
# если они не кормят поисковые системы.
Пользователь-агент: UbiCrawler
Disallow: /
Пользователь-агент: DOC
Disallow: /
Пользователь-агент: Zao
Disallow: /
# Известно, что некоторые боты создают проблемы, особенно те, которые предназначены для копирования
# целых сайтов. Пожалуйста, соблюдайте robots.txt.
Пользователь-агент: sitecheck.internetseer.com
Disallow: /
Пользователь-агент: Zealbot
Disallow: /
............
#
Disallow: / Вики / Википедия: Article_Incubator
Disallow: / wiki / Wikipedia% 3AArticle_Incubator
Disallow: / wiki / Wikipedia_talk: Article_Incubator
Disallow: / wiki / Wikipedia_talk% 3AArticle_Incubator
#
Disallow: / wiki / Категория: Noindexed_pages
Disallow: / wiki / Категория% 3ANoindexed_pages
#
#
 

Блок - схема:

«Python

Редактор кода Python:

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу на Python, чтобы проверить, найдена ли данная страница на сервере или нет.
Далее: Напишите программу на Python, чтобы получить количество наборов данных, которые в данный момент перечислены на data.gov.

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code