кодесурса
«Python

NLTK Tokenize: разделить все знаки препинания на отдельные токены

script1adsense2code
script1adsense3code

NLTK Tokenize: упражнение-4 с решением

Напишите программу Python NLTK, чтобы разбить все знаки препинания на отдельные токены.

Пример решения :

Код Python:

from nltk.tokenize import WordPunctTokenizer
text ="Reset your password if you just can't remember your old one."
print("\nOriginal string:")
print(text)
result = WordPunctTokenizer().tokenize(text)
print("\nSplit all punctuation into separate tokens:")
print(result)

Пример вывода:

 Исходная строка:
Сбросьте свой пароль, если вы просто не можете вспомнить свой старый.
Разделите все знаки препинания на отдельные токены:
['Сбросить', 'ваш', 'пароль', 'если', 'вы', 'просто', 'можете', '' ',' t ',' запомнить ',' ваш ',' старый ',' один', '.']

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу на языке Python NLTK, чтобы создать список слов из заданной строки.
Далее: Напишите программу Python NLTK для токенизации слов, с точки зрения предложения.

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code