NLTK Tokenize: удаление маркеров имени пользователя из текста в твиттере

Последнее обновление 29 июня 2019 10:46:31 (UTC / GMT +8 часов)

script1adsense2code

script1adsense3code

Токенизация NLTK: упражнение 7 с решением

Напишите программу на Python NLTK, чтобы удалить маркеры имени пользователя Twitter из заданного текста Twitter.

Пример решения :

Код Python:

from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer(strip_handles=True)
tweet_text ="@abcd @pqrs NoSQL introduction - w3resource http://bit.ly/1ngHC5F  #nosql #database #webdev"
print("\nOriginal Tweet:")
print(tweet_text)
result = tknzr.tokenize(tweet_text)
print("\nTokenize a twitter text:")
print(result)

Пример вывода:

 Оригинальный твит:
@abcd @pqrs Введение в NoSQL - w3resource http://bit.ly/1ngHC5F #nosql #database #webdev
Токенизируйте твиттерный текст:
['NoSQL', 'введение', '-', 'w3resource', 'http://bit.ly/1ngHC5F', '#nosql', '#database', '#webdev']

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу на Python NLTK для токенизации текста в Твиттере.
Далее: Напишите программу на Python NLTK, которая будет читать заданный текст через каждую строку и искать предложения. Напечатайте каждое предложение и разделите два предложения на «==============».