Python Web Scraping - упражнения, практика, решение
Web Scraping
Очистка веб-страниц или извлечение веб-данных - это очистка данных, используемая для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц используется для доступа к Всемирной паутине напрямую с использованием протокола передачи гипертекста или через веб-браузер. Хотя просмотр веб-страниц может выполняться пользователем программного обеспечения вручную, этот термин обычно относится к автоматизированным процессам, реализованным с использованием бота или веб-сканера. Это форма копирования, при которой конкретные данные собираются и копируются из Интернета, обычно в центральную локальную базу данных или электронную таблицу, для последующего поиска или анализа.
Модуль запроса Python:
Запросы позволяют пользователю отправлять органические запросы HTTP / 1.1 на траву без необходимости ручного труда. Нет необходимости вручную добавлять строки запроса к вашим URL-адресам или кодировать данные POST в форме.
Python Web Scraping [27 упражнений с решением]
[ Внизу страницы доступен редактор для написания и выполнения сценариев. ]
1. Напишите программу на Python, чтобы проверить, найдена ли данная страница на сервере или нет. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
2. Напишите программу на Python для загрузки и отображения содержимого robot.txt для en.wikipedia.org. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
3. Напишите программу на Python, чтобы получить количество наборов данных, которые в данный момент перечислены на data.gov. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
4. Напишите программу на Python для преобразования адреса (например, «1600 Amphitheatre Parkway, Mountain View, CA») в географические координаты (например, широта 37,423021 и долгота -122,083739). Перейти к редактору
Geocodin: геокодирование - это процесс преобразования адресов (например, «1600 Amphitheatre Parkway, Mountain View, CA») в географические координаты (например, широта 37,423021 и долгота -122,083739), которые можно использовать для размещения маркеров на карте или для размещения карты ,
Нажмите меня, чтобы увидеть образец решения
5. Напишите программу на Python для отображения имени последнего добавленного набора данных на data.gov. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
6. Напишите программу на Python для извлечения тега h1 с сайта example.com. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
7. Напишите программу на Python для извлечения и отображения всех тегов заголовка из en.wikipedia.org/wiki/Main_Page. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
8. Напишите программу на Python для извлечения и отображения всех ссылок на изображения с en.wikipedia.org/wiki/Peter_Jeffrey_(RAAF_officer). Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
9. Напишите программу на Python, чтобы получить 90-дневные посещения с разбивкой по браузерам для всех сайтов на data.gov. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
10. Напишите программу на Python, которая извлекает произвольную страницу Википедии «Python» и создает список ссылок на этой странице. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
11. Напишите программу на Python, чтобы проверить, содержит ли страница заголовок или нет. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
12. Напишите программу на Python, чтобы перечислить все названия языков и количество связанных статей в порядке их появления на wikipedia.org. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
13. Напишите программу на Python, чтобы узнать количество людей, посещающих веб-сайт правительства США прямо сейчас. Перейти к редактору
Источник: https://analytics.usa.gov/data/live/realtime.json
Нажмите меня, чтобы увидеть образец решения
14. Напишите программу на Python и получите количество предупреждений безопасности, выпущенных US-CERT в текущем году. Перейти к редактору
Источник: https://www.us-cert.gov/ncas/alerts
Нажмите меня, чтобы увидеть образец решения
15. Напишите программу на Python, чтобы узнать количество аккаунтов Pinterest, поддерживаемых посольствами и миссиями Госдепартамента США. Перейти к редактору
Источник: https://www.state.gov/r/pa/ode/socialmedia/
Нажмите меня, чтобы увидеть образец решения
16. Напишите программу на Python, чтобы получить число подписчиков данного аккаунта в Twitter. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
17. Напишите программу на Python, чтобы узнать количество подписчиков в Twitter. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
18. Напишите программу на Python, чтобы получить номер поста в Twitter, понравившийся данной учетной записи. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
19. Напишите программу на Python для подсчета количества твитов по данной учетной записи Twitter. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
20. Напишите программу на Python, чтобы удалить количество твитов данной учетной записи Twitter. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
21. Напишите программу на Python, чтобы найти отчет о погоде в реальном времени (температура, скорость ветра, описание и погода) для данного города. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
22. Напишите программу на Python для отображения даты, дней, заголовка, города, страны следующих 25 хак-хевентов. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
23. Напишите программу на Python для загрузки данных 250 лучших IMDB (название фильма, первый выпуск, имя режиссера и звезды). Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
24. Напишите программу на Python, чтобы получить название фильма, год и краткое изложение 10 лучших случайных фильмов. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
25. Напишите программу на Python, чтобы получить число землетрясений магнитудой 4,5+, обнаруженных Геологической службой США по всему миру. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
26. Напишите программу на Python для отображения содержимого различных атрибутов, таких как различные атрибуты, такие как код_состояния, заголовки, URL, история, кодировка, причина, файлы cookie, истекшее время, запрос и содержимое указанного ресурса. Перейти к редактору
Нажмите меня, чтобы увидеть образец решения
27. Напишите программу на Python для проверки SSL-сертификатов на HTTPS-запросы с использованием модуля запросов. Перейти к редактору
Примечание. Requests проверяет сертификаты SSL для запросов HTTPS, как веб-браузер. По умолчанию проверка SSL включена, и запрос выдаст SSLError, если он не может проверить сертификат
Нажмите меня, чтобы увидеть образец решения
Еще не все !
Редактор кода Python:
Новый контент: Composer: менеджер зависимостей для PHP , R программирования