кодесурса
«BeautifulSoup

Python BeautifulSoup: извлечь весь текст с данной веб-страницы

script1adsense2code
script1adsense3code

BeautifulSoup: Упражнение-12 с решением

Напишите программу на Python для извлечения всего текста с данной веб-страницы.

Пример решения :

Код Python:

import requests
from bs4 import BeautifulSoup
url ='https://www.python.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'lxml')
print("Text from the said page:")
print(soup.get_text())

Пример вывода:

 Текст с указанной страницы:
Добро пожаловать на Python.org
     {
       "@context": "https://schema.org",
       "@type": "WebSite",
       "url": "https://www.python.org/",
       «потенциальное действие»: {
         "@type": "SearchAction",
         "target": "https://www.python.org/search/?q= enjsearch_term_string}",
         «запрос-ввод»: «обязательное имя = search_term_string»
       }
     }
    
    var _gaq = _gaq || [];
    _gaq.push (['_ setAccount', 'UA-39055973-1']);
    _gaq.push ([ '_ trackPageview']);
    (function () {
        var ga = document.createElement ('script'); ga.type = 'text / javascript'; ga.async = true;
        ga.src = ('https:' == document.location.protocol? 'https: // ssl': 'http: // www') + '.google-analytics.com / ga.js';
        var s = document.getElementsByTagName ('script') [0]; s.parentNode.insertBefore (ga, s);
    }) ();
    
Обратите внимание: хотя Javascript не является необходимым для этого сайта, ваше взаимодействие с контентом будет ограничено. Пожалуйста, включите Javascript для полного опыта. 
...........
▲ Вернуться к началу
Помощь и общий контакт
Инициативы Разнообразия
Отправить ошибку веб-сайта
Статус 
Copyright © 2001-2019.
                             Python Software Foundation
                            Правовые положения
                             политика конфиденциальности
                             Работает на Heroku
window.jQuery || document.write ('<script src = "/ static / js / libs / jquery-1.8.2.min.js"> <// script>')

Редактор кода Python:

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу Python в список всех тегов h1, h2, h3 с веб-страницы python.org.
Далее: Напишите программу на Python для печати имен всех тегов HTML данной веб-страницы, проходящей через дерево документа.

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code