Python BeautifulSoup: извлечение текста в первом теге абзаца данного HTML-документа
BeautifulSoup: Упражнение-4 с решением
Напишите программу на Python для извлечения текста в теге первого абзаца данного HTML-документа.
Пример решения :
Код Python:
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<meta http-equiv="Content-Type" content="text/html;
charset=iso-8859-1">
<title>An example of HTML page</title>
</head>
<body>
<h2>This is an example HTML page</h2>
<p>
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc at nisi velit,
aliquet iaculis est. Curabitur porttitor nisi vel lacus euismod egestas. In hac
habitasse platea dictumst. In sagittis magna eu odio interdum mollis. Phasellus
sagittis pulvinar facilisis. Donec vel odio volutpat tortor volutpat commodo.
Donec vehicula vulputate sem, vel iaculis urna molestie eget. Sed pellentesque
adipiscing tortor, at condimentum elit elementum sed. Mauris dignissim
elementum nunc, non elementum felis condimentum eu. In in turpis quis erat
imperdiet vulputate. Pellentesque mauris turpis, dignissim sed iaculis eu,
euismod eget ipsum. Vivamus mollis adipiscing viverra. Morbi at sem eget nisl
euismod porta.</p>
<p><a href="/html/HTML-tutorials.php">Learn HTML from
w3resource.com</a></p>
<p><a href="/css/CSS-tutorials.php">Learn CSS from
w3resource.com</a></p>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print("The text in the first paragraph tag:")
print(soup.find_all('p')[0].text)
Пример вывода:
Текст в первом абзаце тега: Lorem Ipsum Dolor Sit Amet, Concetetur Adipiscing Elit. Нун в Ниси Велит, aliquet iaculis est. Curabitur porttitor nisi vel lacus euismod egestas. В хаке привычная тарелка. В сагиттис magna eu odio interdum mollis. Phasellus Стрелец pulvinar facilisis. Donec vel odio volutpat tortor volutpat Коммодо. Donec vehicleula vulputate sem, vel iaculis urna molestie eget. Пеллетт жировой отросток, на condimentum elit elementum sed. Mauris dignissim elementum nunc, non elementum felis condimentum eu. В в турции Quis Erat вульпутат импердиет. Pellentesque mauris turpis, dignissim sed iaculis eu, Euismod Eget Ipsum. Vivamus Mollis Adipiscing Viverra. Morbi at sem eget nisl Euismod Porta.
Редактор кода Python:
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу на Python, чтобы получить количество тегов абзаца данного HTML-документа.
Далее: Напишите программу на Python, чтобы найти длину текста первого тега heading2 данного HTML-документа.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code