Python BeautifulSoup: извлечь весь текст с данной веб-страницы
BeautifulSoup: Упражнение-12 с решением
Напишите программу на Python для извлечения всего текста с данной веб-страницы.
Пример решения :
Код Python:
import requests
from bs4 import BeautifulSoup
url ='https://www.python.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'lxml')
print("Text from the said page:")
print(soup.get_text())
Пример вывода:
Текст с указанной страницы: Добро пожаловать на Python.org { "@context": "https://schema.org", "@type": "WebSite", "url": "https://www.python.org/", «потенциальное действие»: { "@type": "SearchAction", "target": "https://www.python.org/search/?q= enjsearch_term_string}", «запрос-ввод»: «обязательное имя = search_term_string» } } var _gaq = _gaq || []; _gaq.push (['_ setAccount', 'UA-39055973-1']); _gaq.push ([ '_ trackPageview']); (function () { var ga = document.createElement ('script'); ga.type = 'text / javascript'; ga.async = true; ga.src = ('https:' == document.location.protocol? 'https: // ssl': 'http: // www') + '.google-analytics.com / ga.js'; var s = document.getElementsByTagName ('script') [0]; s.parentNode.insertBefore (ga, s); }) (); Обратите внимание: хотя Javascript не является необходимым для этого сайта, ваше взаимодействие с контентом будет ограничено. Пожалуйста, включите Javascript для полного опыта. ........... ▲ Вернуться к началу Помощь и общий контакт Инициативы Разнообразия Отправить ошибку веб-сайта Статус Copyright © 2001-2019. Python Software Foundation Правовые положения политика конфиденциальности Работает на Heroku window.jQuery || document.write ('<script src = "/ static / js / libs / jquery-1.8.2.min.js"> <// script>')
Редактор кода Python:
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу Python в список всех тегов h1, h2, h3 с веб-страницы python.org.
Далее: Напишите программу на Python для печати имен всех тегов HTML данной веб-страницы, проходящей через дерево документа.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code