кодесурса
«Python

NLTK Tokenize: прочитайте заданный текст через каждую строку и найдите предложения

script1adsense2code
script1adsense3code

NLTK Tokenize : упражнение-8 с решением

Напишите программу Python NLTK, которая будет читать заданный текст через каждую строку и искать предложения. Напечатайте каждое предложение и разделите два предложения на «==============».

Пример решения :

Python Code-1:

import nltk.data
text = '''
Mr. Smith waited for the train. The train was late.
Mary and Samantha took the bus. I looked for Mary and
Samantha at the bus station.
'''
print("\nOriginal Tweet:")
print(text)
sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')
print('\n==============\n'.join(sent_detector.tokenize(text.strip())))

Пример вывода:

 Оригинальный твит:
Мистер Смит ждал поезда. Поезд опоздал.
Мэри и Саманта сели на автобус. Я искал Мэри и
Саманта на автовокзале.
Мистер Смит ждал поезда.
==============
Поезд опоздал.
==============
Мэри и Саманта сели на автобус.
==============
Я искал Мэри и
Саманта на автовокзале.

Пунктуация следующих предложений также включена по умолчанию.

Пример:

Python Code-2:

import nltk.data
text = '''
Mr. Smith waited for the train. (The train was late.)
Mary and Samantha took the bus. I looked for Mary and
Samantha at the bus station [Sector-1].
'''
print("\nOriginal Tweet:")
print(text)
sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')
print('\n==============\n'.join(sent_detector.tokenize(text.strip())))

Выход:

 Оригинальный твит:
Мистер Смит ждал поезда. (Поезд опоздал.)
Мэри и Саманта сели на автобус. Я искал Мэри и
Саманта на автовокзале [Сектор-1].
Мистер Смит ждал поезда.
==============
(Поезд опоздал.)
==============
Мэри и Саманта сели на автобус.
==============
Я искал Мэри и
Саманта на автовокзале [Сектор-1].

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу Python NLTK, чтобы удалить маркеры имени пользователя Twitter из заданного текста Twitter.
Далее: Напишите программу на языке Python NLTK, чтобы найти выражения в скобках в заданной строке и разделить строку на последовательность подстрок.

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code