NLTK Tokenize: разбить текстовое предложение / абзац на список слов
NLTK Tokenize: упражнение-1 с решением
Напишите программу Python NLTK, чтобы разбить текстовое предложение / абзац на список слов.
Пример решения :
Код Python:
text = '''
Joe waited for the train. The train was late.
Mary and Samantha took the bus.
I looked for Mary and Samantha at the bus station.
'''
print("\nOriginal string:")
print(text)
from nltk.tokenize import sent_tokenize
token_text = sent_tokenize(text)
print("\nSentence-tokenized copy in a list:")
print(token_text)
print("\nRead the list:")
for s in token_text:
print(s)
Пример вывода:
Исходная строка: Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке. Копия с предложением в списке: [«Джо ждал поезда». «Поезд опоздал». «Мэри и Саманта сели на автобус». «Я искала Мэри и Саманту на автобусной станции».] Прочитайте список: Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке.
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: NLTK Tokenize Exercises Home.
Далее: Напишите программу на Python NLTK для токенизации предложений на языках, отличных от английского.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code