NLTK Tokenize: создать список слов из заданной строки
NLTK Tokenize: упражнение-3 с решением
Напишите программу на языке Python NLTK, чтобы создать список слов из заданной строки.
Пример решения :
Python Code-1:
from nltk.tokenize import word_tokenize
text ="Joe waited for the train. The train was late. Mary and Samantha took the bus. I looked for Mary and Samantha at the bus station."
print("\nOriginal string:")
print(text)
print("\nList of words:")
print(word_tokenize(text))
Пример вывода:
Исходная строка: Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке. Список слов: ['Джо', 'ожидал', 'для', 'the', 'train', '.', 'The', 'train', 'was', 'late', '.', 'Mary', ' и ',' Саманта ',' взял ',' ',' автобус ','. ',' Я ',' посмотрел ',' для ',' Мэри ',' и ',' Саманта ',' в ' , 'автобусная станция', '.']
Это эквивалентно следующему коду:
Python Code-2:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text ="Joe waited for the train. The train was late. Mary and Samantha took the bus. I looked for Mary and Samantha at the bus station."
print("\nOriginal string:")
print(text)
print("\nList of words:")
print(tokenizer.tokenize(text))
Выход:
Исходная строка: Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке. Список слов: ['Джо', 'ждал', 'для', 'the', 'train.', 'The', 'train', 'was', 'поздно.', 'Mary', 'и', 'Samantha' , 'взял', 'the', 'bus.', 'I', 'look', 'for', 'Mary', 'and', 'Samantha', 'at', 'the', 'bus', 'станция', '.']
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу Python NLTK для токенизации предложений на языках, отличных от английского.
Далее: Написать программу Python NLTK, чтобы разбить все знаки препинания на отдельные токены.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code