NLTK Tokenize: токенизация текста в твиттере

Последнее обновление 29 июня 2019 10:46:26 (UTC / GMT +8 часов)

script1adsense2code

script1adsense3code

NLTK Tokenize: упражнение 6 с решением

Напишите программу на Python NLTK для токенизации текста в Твиттере.

Пример решения :

Код Python:

from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer(strip_handles=True, reduce_len=True)
tweet_text ="NoSQL introduction - w3resource http://bit.ly/1ngHC5F  #nosql #database #webdev"
print("\nOriginal Tweet:")
print(tweet_text)
result = tknzr.tokenize(tweet_text)
print("\nTokenize a twitter text:")
print(result)

Пример вывода:

 Оригинальный твит:
Введение в NoSQL - w3resource http://bit.ly/1ngHC5F #nosql #database #webdev
Токенизируйте текст в твиттере:
['NoSQL', 'введение', '-', 'w3resource', 'http://bit.ly/1ngHC5F', '#nosql', '#database', '#webdev']

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу на языке Python NLTK, чтобы разбить слова на части.
Далее: Напишите программу Python NLTK для удаления маркеров имени пользователя Twitter из заданного текста Twitter.