NLTK Tokenize: разбить текстовое предложение / абзац на список слов

Последнее обновление 09 августа 2019 08:14:20 (UTC / GMT +8 часов)

script1adsense2code

script1adsense3code

NLTK Tokenize: упражнение-1 с решением

Напишите программу Python NLTK, чтобы разбить текстовое предложение / абзац на список слов.

Пример решения :

Код Python:

text = '''
Joe waited for the train. The train was late. 
Mary and Samantha took the bus. 
I looked for Mary and Samantha at the bus station.
'''
print("\nOriginal string:")
print(text)
from nltk.tokenize import sent_tokenize
token_text = sent_tokenize(text)
print("\nSentence-tokenized copy in a list:")
print(token_text)
print("\nRead the list:")
for s in token_text:
    print(s)

Пример вывода:

 Исходная строка:
Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке.
Копия с предложением в списке:
[«Джо ждал поезда». «Поезд опоздал». «Мэри и Саманта сели на автобус». «Я искала Мэри и Саманту на автобусной станции».]
Прочитайте список:
Джо ждал поезда.
Поезд опоздал.
Мэри и Саманта сели на автобус.
Я искала Мэри и Саманту на автобусной остановке.

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: NLTK Tokenize Exercises Home.
Далее: Напишите программу на Python NLTK для токенизации предложений на языках, отличных от английского.