кодесурса
«Python

Python Web Scraping: извлеките и отобразите все теги заголовков из en.wikipedia.org/wiki/Main_Page

script1adsense2code
script1adsense3code

Python Web Scraping: упражнение-7 с решением

Напишите программу на Python для извлечения и отображения всех тегов заголовка из en.wikipedia.org/wiki/Main_Page.

Пример решения : -

Код Python:

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('https://en.wikipedia.org/wiki/Main_Page')
bs = BeautifulSoup(html, "html.parser")
titles = bs.find_all(['h1', 'h2','h3','h4','h5','h6'])
print('List all the header tags :', *titles, sep='\n\n')

Выход:

 Перечислите все теги заголовка:
<h1 class = "firstHeading" id = "firstHeading" lang = "en"> Главная страница </ h1>
<h2 id = "mp-tfa-h2" style = "margin: 0.5em; фон: # cef2e0; семейство шрифтов: наследовать; размер шрифта: 120%; вес шрифта: полужирный; граница: 1px solid # a3bfb1; цвет: # 000; отступ: 0.2em 0.4em; "> <span id =" From_today.27s_featured_article "> </ span> <span class =" mw-headline "id =" From_today's_featured_article "> Из сегодняшней избранной статьи < / SPAN> </ h2>
<h2 id = "mp-dyk-h2" style = "clear: оба; поле: 0.5em; фон: # cef2e0; семейство шрифтов: наследовать; размер шрифта: 120%; вес шрифта: полужирный; граница: 1 пикс. solid # a3bfb1; цвет: # 000; отступ: 0,2em 0,4em; "> <span class =" mw-headline "id =" Did_you_know ... "> Знаете ли вы ... </ span> </ h2>
<h2 id = "mp-itn-h2" style = "margin: 0.5em; фон: # cedff2; семейство шрифтов: наследовать; размер шрифта: 120%; вес шрифта: полужирный; граница: 1px solid # a3b0bf; цвет: # 000; отступы: 0,2em 0,4em; "> <span class =" mw-headline "id =" In_the_news "> В новостях </ span> </ h2>
<h2 id = "mp-otd-h2" style = "clear: оба; поле: 0.5em; фон: # cedff2; семейство шрифтов: наследовать; размер шрифта: 120%; вес шрифта: полужирный; граница: 1 пикс. solid # a3b0bf; цвет: # 000; отступ: 0,2em 0,4em; "> <span class =" mw-headline "id =" On_this_day "> В этот день </ span> </ h2>
<h2 id = "mp-tfl-h2" style = "margin: 0.5em; фон: # f2cedd; семейство шрифтов: наследовать; размер шрифта: 120%; вес шрифта: полужирный; граница: 1px solid # bfa3af; цвет: # 000; отступ: 0,2em 0,4em "> <span id =" From_today.27s_featured_list "> </ span> <span class =" mw-headline "id =" From_today's_featured_list "> Из сегодняшнего списка избранных </ SPAN> </ h2>
<h2 id = "mp-tfp-h2" style = "margin: 0.5em; фон: # ddcef2; семейство шрифтов: наследовать; размер шрифта: 120%; вес шрифта: полужирный; граница: 1px solid # afa3bf; цвет: # 000; отступы: 0,2em 0,4em "> <span id =" Today.27s_featured_picture "> </ span> <span class =" mw-headline "id =" Today's_featured_picture "> Показанное сегодня изображение </ span > </ h2>
<h2 id = "mp-other" style = "margin: 0.5em; фон: #eeeeee; граница: 1px solid #ddd; цвет: # 222; отступ: 0,2em 0,4em; размер шрифта: 120%; font- вес: полужирный; семейство шрифтов: наследовать; "> <span class =" mw-headline "id =" Other_areas_of_Wikipedia "> Другие области Википедии </ span> </ h2>
<h2 id = "mp-сестра" style = "поле: 0,5em; фон: #eeeeee; граница: 1px solid #ddd; цвет: # 222; отступ: 0,2em 0,4em; размер шрифта: 120%; font- weight: bold; font-family: наследовать; "> <span id =" Wikipedia.27s_sister_projects "> </ span> <span class =" mw-headline "id =" Wikipedia's_sister_projects "> родственные проекты Википедии </ span> </ h2>
<h2 id = "mp-lang" style = "margin: 0.5em; фон: #efefef; граница: 1px solid #ddd; цвет: # 222; отступ: 0,2em 0,4em; размер шрифта: 120%; font- вес: полужирный; семейство шрифтов: наследовать; "> <span class =" mw-headline "id =" Wikipedia_languages "> языки Википедии </ span> </ h2>
<h2> Меню навигации </ h2>
<h3 id = "p-personal-label"> Личные инструменты </ h3>
<h3 id = "p-namespaces-label"> Пространства имен </ h3>
<h3 id = "p-варианты-метки">
<SPAN> Варианты </ SPAN>
</ H3>
<h3 id = "p-views-label"> Просмотры </ h3>
<h3 id = "p-cactions-label"> <span> Подробнее </ span> </ h3>
<H3>
<label for = "searchInput"> Поиск </ label>
</ H3>
<h3 id = "p-navigation-label"> Навигация </ h3>
<h3 id = "p-Interaction-label"> Взаимодействие </ h3>
<h3 id = "p-tb-label"> Инструменты </ h3>
<h3 id = "p-coll-print_export-label"> Печать / экспорт </ h3>
<h3 id = "p-wikibase-otherprojects-label"> В других проектах </ h3>
<h3 id = "p-lang-label"> Языки </ h3>
 

Блок - схема:

«Python

Редактор кода Python:

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу на Python для извлечения тега h1 с сайта example.com.
Далее: Напишите программу на Python для извлечения и отображения всех ссылок на изображения из en.wikipedia.org/wiki/Peter_Jeffrey_(RAAF_officer).

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code