Токенизация NLTK: токенизация слов, мудрое предложение

Последнее обновление 29 июня 2019 10:46:25 (UTC / GMT +8 часов)

script1adsense2code

script1adsense3code

NLTK Tokenize: упражнение 5 с решением

Напишите программу на языке Python NLTK, чтобы пометить слова словами.

Пример решения :

Код Python:

from nltk.tokenize import sent_tokenize, word_tokenize
text ="Joe waited for the train. The train was late. Mary and Samantha took the bus. I looked for Mary and Samantha at the bus station."
print("\nOriginal string:")
print(text)
print("\nTokenize words sentence wise:")
result = [word_tokenize(t) for t in sent_tokenize(text)]
print("\nRead the list:")
for s in result:
    print(s)

Пример вывода:

 Исходная строка:
Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке.
Обозначим слова:
Прочитайте список:
['Джо', 'ожидал', 'для', 'the', 'train', '.']
['', 'Поезд', 'был', 'поздно', '.']
['Мария', 'и', 'Саманта', 'взяли', 'the', 'bus', '.']
['Я', 'посмотрел', 'для', 'Мэри', 'и', 'Саманта', 'в', 'the', 'автобус', 'станция', '.']

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу Python NLTK, чтобы разбить все знаки препинания на отдельные токены.
Далее: Напишите программу на Python NLTK для токенизации текста в Твиттере.