кодесурса
«BeautifulSoup

Python BeautifulSoup: получение HTML-кода заголовка, его текста и HTML-кода его родителя

script1adsense2code
script1adsense3code

BeautifulSoup: Упражнение-16 с решением

Напишите программу на Python для извлечения HTML-кода заголовка, его текста и HTML-кода его родителя.

Пример решения :

Код Python:

import requests
from bs4 import BeautifulSoup
url ='https://www.python.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'lxml')
print("title")
print(soup.title)
print("title text")
print(soup.title.text)
print("Parent content of the title:")
print(soup.title.parent)

Пример вывода:

 заглавие
<title> Добро пожаловать на Python.org </ title>
текст заголовка
Добро пожаловать на Python.org
Родительское содержание заголовка:
<Голова>
<meta charset = "utf-8" />
<meta content = "IE = edge" http-экв = "X-UA-совместимый" />
<link href = "// ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js" rel = "prefetch" />
<meta content = "Python.org" name = "application-name" />
<meta content = "Официальный сайт языка программирования Python" name = "msapplication-tooltip" />
<meta content = "Python.org" name = "apple-mobile-web-app-title" />
<meta content = "yes" name = "apple-mobile-web-app-enabled" />
<meta content = "black" name = "apple-mobile-web-app-status-bar-style" />
<meta content = "width = device-width, initial-scale = 1.0" name = "viewport" />
<meta content = "True" name = "HandheldFriendly" />
<meta content = "telephone = no" name = "распознавание формата" />
<meta content = "on" http-экв = "cleartype" />
<meta content = "false" http-экв = "imagetoolbar" />
<script src = "/ static / js / libs / modernizr.js"> </ script>
<link href = "/ static / stylesheets / style.3dbbbf7ee488.css" rel = "stylesheet" title = "default" type = "text / css" />
<link href = "/ static / stylesheets / mq.3ae8e02ece5b.css" media = "not print, Брайль, тиснение, речь, tty" rel = "stylesheet" type = "text / css" />
<! - [if (lte IE 8) & (! IEMobile)]>
    <link href = "/ static / stylesheets / no-mq.fcf414dc68a3.css" rel = "stylesheet" type = "text / css" media = "screen" />
    
    
    <! [ENDIF] ->
<link href = "/ static / favicon.ico" rel = "icon" type = "image / x-icon" />
<link href = "/ static / apple-touch-icon-144x144-precomposed.png" rel = "apple-touch-icon-precomposed" размеры = "144х144" />
<link href = "/ static / apple-touch-icon-114x114-precomposed.png" rel = "apple-touch-icon-precomposed" sizes = "114x114" />
<link href = "/ static / apple-touch-icon-72x72-precomposed.png" rel = "apple-touch-icon-precomposed" sizes = "72x72" />
<link href = "/ static / apple-touch-icon-precomposed.png" rel = "apple-touch-icon-precomposed" />
<link href = "/ static / apple-touch-icon-precomposed.png" rel = "apple-touch-icon" />
<meta content = "/ static / metro-icon-144x144-precomposed.png" name = "msapplication-TileImage" /> <! - белая форма ->
<meta content = "# 3673a5" name = "msapplication-TileColor" /> <! - python blue ->
<meta content = "# 3673a5" name = "msapplication-navbutton-color" />
<title> Добро пожаловать на Python.org </ title>
<meta content = "Официальный сайт языка программирования Python" name = "description" />
<meta content = "Сообщество по загрузке документации по лицензии на программное обеспечение с открытым исходным кодом на языке программирования Python для сообщества" name = "Keywords" />
<meta content = "website" property = "og: type" />
<meta content = "Python.org" property = "og: site_name" />
<meta content = "Welcome to Python.org" property = "og: title" />
<meta content = "Официальный дом языка программирования Python" property = "og: description" />
<meta content = "https://www.python.org/static/opengraph-icon-200x200.png" property = "og: image" />
<meta content = "https://www.python.org/static/opengraph-icon-200x200.png" property = "og: image: secure_url" />
<meta content = "https://www.python.org/" property = "og: url" />
<link href = "/ static / humans.txt" rel = "author" />
<link href = "https://www.python.org/dev/peps/peps.rss/" rel = "alternate" title = "Предложения по улучшению Python" type = "application / rss + xml" />
<link href = "https://www.python.org/jobs/feed/rss/" rel = "alternate" title = "Возможности работы с Python" type = "application / rss + xml" />
<link href = "https://feeds.feedburner.com/PythonSoftwareFoundationNews" rel = "alternate" title = "Новости Python Software Foundation" type = "application / rss + xml" />
<link href = "https://feeds.feedburner.com/PythonInsider" rel = "alternate" title = "Инсайдер Python" type = "application / rss + xml" />
<script type = "application / ld + json">
     {
       "@context": "https://schema.org",
       "@type": "WebSite",
       "url": "https://www.python.org/",
       «потенциальное действие»: {
         "@type": "SearchAction",
         "target": "https://www.python.org/search/?q= enjsearch_term_string}",
         «запрос-ввод»: «обязательное имя = search_term_string»
       }
     }
    </ Скрипт>
<script type = "text / javascript">
    var _gaq = _gaq || [];
    _gaq.push (['_ setAccount', 'UA-39055973-1']);
    _gaq.push ([ '_ trackPageview']);
    (function () {
        var ga = document.createElement ('script'); ga.type = 'text / javascript'; ga.async = true;
        ga.src = ('https:' == document.location.protocol? 'https: // ssl': 'http: // www') + '.google-analytics.com / ga.js';
        var s = document.getElementsByTagName ('script') [0]; s.parentNode.insertBefore (ga, s);
    }) ();
    </ Скрипт>
</ HEAD>

Редактор кода Python:

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу на Python для извлечения всех потомков тега body с заданной веб-страницы.
Далее: Напишите программу на Python, чтобы найти и распечатать все теги li данной веб-страницы.

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code