Токенизация NLTK: токенизация слов, мудрое предложение
NLTK Tokenize: упражнение 5 с решением
Напишите программу на языке Python NLTK, чтобы пометить слова словами.
Пример решения :
Код Python:
from nltk.tokenize import sent_tokenize, word_tokenize
text ="Joe waited for the train. The train was late. Mary and Samantha took the bus. I looked for Mary and Samantha at the bus station."
print("\nOriginal string:")
print(text)
print("\nTokenize words sentence wise:")
result = [word_tokenize(t) for t in sent_tokenize(text)]
print("\nRead the list:")
for s in result:
print(s)
Пример вывода:
Исходная строка: Джо ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искала Мэри и Саманту на автобусной остановке. Обозначим слова: Прочитайте список: ['Джо', 'ожидал', 'для', 'the', 'train', '.'] ['', 'Поезд', 'был', 'поздно', '.'] ['Мария', 'и', 'Саманта', 'взяли', 'the', 'bus', '.'] ['Я', 'посмотрел', 'для', 'Мэри', 'и', 'Саманта', 'в', 'the', 'автобус', 'станция', '.']
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу Python NLTK, чтобы разбить все знаки препинания на отдельные токены.
Далее: Напишите программу на Python NLTK для токенизации текста в Твиттере.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code