NLTK Tokenize: удаление маркеров имени пользователя из текста в твиттере
Токенизация NLTK: упражнение 7 с решением
Напишите программу на Python NLTK, чтобы удалить маркеры имени пользователя Twitter из заданного текста Twitter.
Пример решения :
Код Python:
from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer(strip_handles=True)
tweet_text ="@abcd @pqrs NoSQL introduction - w3resource http://bit.ly/1ngHC5F #nosql #database #webdev"
print("\nOriginal Tweet:")
print(tweet_text)
result = tknzr.tokenize(tweet_text)
print("\nTokenize a twitter text:")
print(result)
Пример вывода:
Оригинальный твит: @abcd @pqrs Введение в NoSQL - w3resource http://bit.ly/1ngHC5F #nosql #database #webdev Токенизируйте твиттерный текст: ['NoSQL', 'введение', '-', 'w3resource', 'http://bit.ly/1ngHC5F', '#nosql', '#database', '#webdev']
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу на Python NLTK для токенизации текста в Твиттере.
Далее: Напишите программу на Python NLTK, которая будет читать заданный текст через каждую строку и искать предложения. Напечатайте каждое предложение и разделите два предложения на «==============».
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code