NLTK Tokenize: создать список слов из заданной строки

Последнее обновление 29 июня 2019 10:46:23 (UTC / GMT +8 часов)

script1adsense2code

script1adsense3code

NLTK Tokenize: упражнение-3 с решением

Напишите программу на языке Python NLTK, чтобы создать список слов из заданной строки.

Пример решения :

Python Code-1:

from nltk.tokenize import word_tokenize
text ="Joe waited for the train. The train was late. Mary and Samantha took the bus. I looked for Mary and Samantha at the bus station."
print("\nOriginal string:")
print(text)
print("\nList of words:")
print(word_tokenize(text))

Пример вывода:

 Исходная строка:
Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке.
Список слов:
['Джо', 'ожидал', 'для', 'the', 'train', '.', 'The', 'train', 'was', 'late', '.', 'Mary', ' и ',' Саманта ',' взял ',' ',' автобус ','. ',' Я ',' посмотрел ',' для ',' Мэри ',' и ',' Саманта ',' в ' , 'автобусная станция', '.']

Это эквивалентно следующему коду:

Python Code-2:

from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text ="Joe waited for the train. The train was late. Mary and Samantha took the bus. I looked for Mary and Samantha at the bus station."
print("\nOriginal string:")
print(text)
print("\nList of words:")
print(tokenizer.tokenize(text))

Выход:

 Исходная строка:
Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке.
Список слов:
['Джо', 'ждал', 'для', 'the', 'train.', 'The', 'train', 'was', 'поздно.', 'Mary', 'и', 'Samantha' , 'взял', 'the', 'bus.', 'I', 'look', 'for', 'Mary', 'and', 'Samantha', 'at', 'the', 'bus', 'станция', '.']

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу Python NLTK для токенизации предложений на языках, отличных от английского.
Далее: Написать программу Python NLTK, чтобы разбить все знаки препинания на отдельные токены.