NLTK корпус: пропустить некоторые заданные стоп-слова из списка стоп-слов
NLTK корпус: упражнение-5 с решением
Напишите программу Python NLTK, чтобы исключить некоторые заданные стоп-слова из списка стоп-слов.
Пример решения :
Код Python:
import nltk
from nltk.corpus import stopwords
result = set(stopwords.words('english'))
print("List of stopwords in English:")
print(result)
print("\nOmit - 'again', 'once' and 'from':")
stop_words = set(stopwords.words('english')) - set(['again', 'once', 'from'])
print("\nList of fresh stopwords in English:")
print (stop_words)
Пример вывода:
Список стоп-слов на английском языке: {'если', 'сделать', 'несколько', 'это', 'не должен', 'я', 'его', 'имеет', 'с', 'был', 'может', 'победил' , «ты», «ниже», «не был», «в», «его», «это», «выше», «наш», «не нужно», «здесь», «я» , «я», «все», «re», «не будет», «не», «должен», «такой» или «для», «не смог», «что», « должен был "," делает "," ее "," другой "," который будет "," не "," не был "," один раз "," пока "," между "," может " , «не имеет», «слишком», «вверх», «до», «их», «он сам», «это», «ты», «некоторые», «сами», «аин», « an ',' ours ',' at ',' haven ',' about ',' just ',' mustn ',' o ',' both ',' out ',' not ',' ll ',' ma ',' you ',' have not ',' only ',' hadn ',' те ',' они ',' против ',' down ',' over ',' t ',' she ',' опять «почему», «сделал», «бы», «а», «когда», «ваш», «мы сами», «кто», «имеющий», «на», «у», «их» , «быть», «сама», «ни», «то», «мимо», «не», «не должен», «не должен», «потому что», «не», «под» , 'are', 'he', 'own', 'you', 'there', 'yours', 'and', 'most', 'Могут не иметь', 'иметь', 'делать', ' во время ',' не смог ',' не сделал ',' будет ', 'weren', 'd', 'are', 'она', 'не будет', 'не', 'тогда', 'не', 'разве', 'сама', 'сейчас', 'didn', «эти», «они», «нуждаются», «вы», «шань», «есть», «больше», «быть», «вы», «чем», «после», «арена», «как», «где», «который», «в», «не имел», «дальше», «нет», «сами», «как», «кого», «к», «hasn», «mustn», «through», «the», «m», «s», «very», «мы», «каждый», «до», «то же самое», «не», «было», 'my', 'so', 'from', 've', 'am', 'has', 'his', 'but', 'off', 'any', 'of', 'her'} Опустить - «снова», «один раз» и «от»: Список свежих стоп-слов на английском языке: {'если', 'сделать', 'несколько', 'это', 'не должен', 'я', 'его', 'имеет', 'с', 'был', 'может', 'победил' , «ты», «ниже», «не был», «в», «его», «это», «выше», «наш», «не нужно», «здесь», «я» , «я», «все», «re», «не будет», «не», «должен», «такой» или «для», «не смог», «что», « Должен был "," делает "," ее "," другие "," это будет "," не "," не было "," в то время как "," между "," может быть "," hasn " t "," тоже "," вверх "," до "," их "," он сам "," это "," ты "," некоторые "," они сами "," аин "," an "," наши ',' в ',' убежище ',' о ',' просто ',' следует ',' о ',' оба ',' вне ',' не ',' ll ',' ма ',' Вы ',' не имею ',' только ',' хен ',' те ',' они ',' против ',' вниз ',' над ',' t ',' она ',' почему ',' сделал ',' не будет ',' а ',' когда ',' ваш ',' мы сами ',' кто ',' имея ',' на ',' у ',' их ',' будучи ',' сама ' , 'nor', 'that', 'by', 'not', 'must't', 'shan't', 'потому что', 'not', 'under', 'are', 'he' , «собственный», «ты», «там», «твой», «и», «большинство», «может не», «иметь», «делать», «во время», «не может», « не "," будет "," не был "," D "," мы re ',' она ',' не будет ',' нет ',' тогда ',' не ',' разве ',' сама ',' сейчас ',' не так ',' эти ',' их ',' Needn ',' You ',' Shan ',' is ',' more ',' be ',' you ',' than ',' after ',' aren ',' how ',' where ',' который ',' в ',' не имел ',' дальше ',' нет ',' вы ',' как ',' кому ',' к ',' hasn ',' mustn ',' through ',' ',' m ',' s ',' очень ',' мы ',' каждый ',' до ',' то же самое ',' не ',' был ',' мой ',' так ',' ve ',' am ',' has ',' his ',' но ',' off ',' any ',' of ',' her '}
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Написать программу Python NLTK для удаления стоп-слов из заданного текста.
Далее: Напишите программу на Python NLTK, чтобы найти определение и примеры данного слова, используя WordNet.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code