NLTK Tokenize: разделить все знаки препинания на отдельные токены
NLTK Tokenize: упражнение-4 с решением
Напишите программу Python NLTK, чтобы разбить все знаки препинания на отдельные токены.
Пример решения :
Код Python:
from nltk.tokenize import WordPunctTokenizer
text ="Reset your password if you just can't remember your old one."
print("\nOriginal string:")
print(text)
result = WordPunctTokenizer().tokenize(text)
print("\nSplit all punctuation into separate tokens:")
print(result)
Пример вывода:
Исходная строка: Сбросьте свой пароль, если вы просто не можете вспомнить свой старый. Разделите все знаки препинания на отдельные токены: ['Сбросить', 'ваш', 'пароль', 'если', 'вы', 'просто', 'можете', '' ',' t ',' запомнить ',' ваш ',' старый ',' один', '.']
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу на языке Python NLTK, чтобы создать список слов из заданной строки.
Далее: Напишите программу Python NLTK для токенизации слов, с точки зрения предложения.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code