кодесурса
«Python

NLTK Tokenize: токенизация текста в твиттере

script1adsense2code
script1adsense3code

NLTK Tokenize: упражнение 6 с решением

Напишите программу на Python NLTK для токенизации текста в Твиттере.

Пример решения :

Код Python:

from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer(strip_handles=True, reduce_len=True)
tweet_text ="NoSQL introduction - w3resource http://bit.ly/1ngHC5F  #nosql #database #webdev"
print("\nOriginal Tweet:")
print(tweet_text)
result = tknzr.tokenize(tweet_text)
print("\nTokenize a twitter text:")
print(result) 

Пример вывода:

 Оригинальный твит:
Введение в NoSQL - w3resource http://bit.ly/1ngHC5F #nosql #database #webdev
Токенизируйте текст в твиттере:
['NoSQL', 'введение', '-', 'w3resource', 'http://bit.ly/1ngHC5F', '#nosql', '#database', '#webdev']

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу на языке Python NLTK, чтобы разбить слова на части.
Далее: Напишите программу Python NLTK для удаления маркеров имени пользователя Twitter из заданного текста Twitter.

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code