NLTK Tokenize: токенизация текста в твиттере
NLTK Tokenize: упражнение 6 с решением
Напишите программу на Python NLTK для токенизации текста в Твиттере.
Пример решения :
Код Python:
from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer(strip_handles=True, reduce_len=True)
tweet_text ="NoSQL introduction - w3resource http://bit.ly/1ngHC5F #nosql #database #webdev"
print("\nOriginal Tweet:")
print(tweet_text)
result = tknzr.tokenize(tweet_text)
print("\nTokenize a twitter text:")
print(result)
Пример вывода:
Оригинальный твит: Введение в NoSQL - w3resource http://bit.ly/1ngHC5F #nosql #database #webdev Токенизируйте текст в твиттере: ['NoSQL', 'введение', '-', 'w3resource', 'http://bit.ly/1ngHC5F', '#nosql', '#database', '#webdev']
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу на языке Python NLTK, чтобы разбить слова на части.
Далее: Напишите программу Python NLTK для удаления маркеров имени пользователя Twitter из заданного текста Twitter.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code