NLTK корпус: удаление стоп-слов из заданного текста
NLTK корпус: упражнение-4 с решением
Напишите программу Python NLTK, чтобы удалить стоп-слова из заданного текста.
Пример решения :
Код Python:
from nltk.corpus import stopwords
stoplist = stopwords.words('english')
text = '''
In computing, stop words are words which are filtered out before or after
processing of natural language data (text). Though "stop words" usually
refers to the most common words in a language, there is no single universal
list of stop words used by all natural language processing tools, and
indeed not all tools even use such a list. Some tools specifically avoid
removing these stop words to support phrase search.
'''
print("\nOriginal string:")
print(text)
clean_word_list = [word for word in text.split() if word not in stoplist]
print("\nAfter removing stop words from the said text:")
print(clean_word_list)
Пример вывода:
Исходная строка: В вычислениях стоп-слова - это слова, отфильтрованные до или после обработка данных на естественном языке (текст). Хотя "стоп-слова" обычно относится к наиболее распространенным словам в языке, нет единого универсального список стоп-слов, используемых всеми инструментами обработки естественного языка, и на самом деле не все инструменты даже используют такой список. Некоторые инструменты специально избегают удаление этих стоп-слов для поддержки поиска по фразе. После удаления стоп-слов из указанного текста: [«В», «вычисления», «остановка», «слова», «слова», «фильтрованные», «обработка», «естественный», «язык», «данные», «(текст).», « Хотя »,« стоп »,« слова »,« обычно »,« ссылаются »,« общие »,« слова »,« язык »,« одиночный »,« универсальный »,« список »,« стоп », «слова», «используется», «естественный», «язык», «обработка», «инструменты», «действительно», «инструменты», «даже», «использовать», «список», «некоторые», «инструменты», «конкретно», «избегать», «удаление», «стоп», «слова», «поддержка», «фраза», «поиск».]
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу Python NLTK, чтобы проверить список стоп-слов на разных языках.
Далее: Напишите программу Python NLTK, чтобы исключить некоторые заданные стоп-слова из списка стоп-слов.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code