Python BeautifulSoup: получение HTML-кода заголовка, его текста и HTML-кода его родителя
BeautifulSoup: Упражнение-16 с решением
Напишите программу на Python для извлечения HTML-кода заголовка, его текста и HTML-кода его родителя.
Пример решения :
Код Python:
import requests
from bs4 import BeautifulSoup
url ='https://www.python.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'lxml')
print("title")
print(soup.title)
print("title text")
print(soup.title.text)
print("Parent content of the title:")
print(soup.title.parent)
Пример вывода:
заглавие <title> Добро пожаловать на Python.org </ title> текст заголовка Добро пожаловать на Python.org Родительское содержание заголовка: <Голова> <meta charset = "utf-8" /> <meta content = "IE = edge" http-экв = "X-UA-совместимый" /> <link href = "// ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js" rel = "prefetch" /> <meta content = "Python.org" name = "application-name" /> <meta content = "Официальный сайт языка программирования Python" name = "msapplication-tooltip" /> <meta content = "Python.org" name = "apple-mobile-web-app-title" /> <meta content = "yes" name = "apple-mobile-web-app-enabled" /> <meta content = "black" name = "apple-mobile-web-app-status-bar-style" /> <meta content = "width = device-width, initial-scale = 1.0" name = "viewport" /> <meta content = "True" name = "HandheldFriendly" /> <meta content = "telephone = no" name = "распознавание формата" /> <meta content = "on" http-экв = "cleartype" /> <meta content = "false" http-экв = "imagetoolbar" /> <script src = "/ static / js / libs / modernizr.js"> </ script> <link href = "/ static / stylesheets / style.3dbbbf7ee488.css" rel = "stylesheet" title = "default" type = "text / css" /> <link href = "/ static / stylesheets / mq.3ae8e02ece5b.css" media = "not print, Брайль, тиснение, речь, tty" rel = "stylesheet" type = "text / css" /> <! - [if (lte IE 8) & (! IEMobile)]> <link href = "/ static / stylesheets / no-mq.fcf414dc68a3.css" rel = "stylesheet" type = "text / css" media = "screen" /> <! [ENDIF] -> <link href = "/ static / favicon.ico" rel = "icon" type = "image / x-icon" /> <link href = "/ static / apple-touch-icon-144x144-precomposed.png" rel = "apple-touch-icon-precomposed" размеры = "144х144" /> <link href = "/ static / apple-touch-icon-114x114-precomposed.png" rel = "apple-touch-icon-precomposed" sizes = "114x114" /> <link href = "/ static / apple-touch-icon-72x72-precomposed.png" rel = "apple-touch-icon-precomposed" sizes = "72x72" /> <link href = "/ static / apple-touch-icon-precomposed.png" rel = "apple-touch-icon-precomposed" /> <link href = "/ static / apple-touch-icon-precomposed.png" rel = "apple-touch-icon" /> <meta content = "/ static / metro-icon-144x144-precomposed.png" name = "msapplication-TileImage" /> <! - белая форма -> <meta content = "# 3673a5" name = "msapplication-TileColor" /> <! - python blue -> <meta content = "# 3673a5" name = "msapplication-navbutton-color" /> <title> Добро пожаловать на Python.org </ title> <meta content = "Официальный сайт языка программирования Python" name = "description" /> <meta content = "Сообщество по загрузке документации по лицензии на программное обеспечение с открытым исходным кодом на языке программирования Python для сообщества" name = "Keywords" /> <meta content = "website" property = "og: type" /> <meta content = "Python.org" property = "og: site_name" /> <meta content = "Welcome to Python.org" property = "og: title" /> <meta content = "Официальный дом языка программирования Python" property = "og: description" /> <meta content = "https://www.python.org/static/opengraph-icon-200x200.png" property = "og: image" /> <meta content = "https://www.python.org/static/opengraph-icon-200x200.png" property = "og: image: secure_url" /> <meta content = "https://www.python.org/" property = "og: url" /> <link href = "/ static / humans.txt" rel = "author" /> <link href = "https://www.python.org/dev/peps/peps.rss/" rel = "alternate" title = "Предложения по улучшению Python" type = "application / rss + xml" /> <link href = "https://www.python.org/jobs/feed/rss/" rel = "alternate" title = "Возможности работы с Python" type = "application / rss + xml" /> <link href = "https://feeds.feedburner.com/PythonSoftwareFoundationNews" rel = "alternate" title = "Новости Python Software Foundation" type = "application / rss + xml" /> <link href = "https://feeds.feedburner.com/PythonInsider" rel = "alternate" title = "Инсайдер Python" type = "application / rss + xml" /> <script type = "application / ld + json"> { "@context": "https://schema.org", "@type": "WebSite", "url": "https://www.python.org/", «потенциальное действие»: { "@type": "SearchAction", "target": "https://www.python.org/search/?q= enjsearch_term_string}", «запрос-ввод»: «обязательное имя = search_term_string» } } </ Скрипт> <script type = "text / javascript"> var _gaq = _gaq || []; _gaq.push (['_ setAccount', 'UA-39055973-1']); _gaq.push ([ '_ trackPageview']); (function () { var ga = document.createElement ('script'); ga.type = 'text / javascript'; ga.async = true; ga.src = ('https:' == document.location.protocol? 'https: // ssl': 'http: // www') + '.google-analytics.com / ga.js'; var s = document.getElementsByTagName ('script') [0]; s.parentNode.insertBefore (ga, s); }) (); </ Скрипт> </ HEAD>
Редактор кода Python:
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу на Python для извлечения всех потомков тега body с заданной веб-страницы.
Далее: Напишите программу на Python, чтобы найти и распечатать все теги li данной веб-страницы.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code