NLTK корпус: получить список общих стоп-слов на разных языках в Python
NLTK корпус : упражнение-2 с решением
Напишите программу на языке Python NLTK, чтобы получить список распространенных стоп-слов на разных языках в Python.
Пример решения :
Код Python:
from nltk.corpus import stopwords
print (stopwords.fileids())
Пример вывода:
['арабский', 'азербайджанский', 'датский', 'голландский', 'английский', 'финский', 'французский', 'немецкий', 'греческий', 'венгерский', 'индонезийский', 'итальянский', '' казахский, непальский, норвежский, португальский, румынский, русский, испанский, шведский, турецкий
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу Python NLTK, чтобы перечислить все имена корпусов.
Далее: Напишите программу на Python NLTK, чтобы проверить список стоп-слов на разных языках.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code