НЛТК Корпус тренируется с решением

Последнее обновление 29 июня 2019 10:46:33 (UTC / GMT +8 часов)

script1adsense2code

script1adsense3code

Python NLTK Corpus [13 упражнений с решением]

[ Внизу страницы доступен редактор для написания и выполнения сценариев. ]

В лингвистике корпус (множественное число) или корпус текста представляет собой большой и структурированный набор текстов. В корпусной лингвистике они используются для статистического анализа и проверки гипотез, проверки происшествий или проверки языковых правил на определенной языковой территории.

Каждый класс чтения корпуса специализирован для обработки определенного формата корпуса. Кроме того, пакет nltk.corpus автоматически создает набор экземпляров программы чтения корпуса, которые можно использовать для доступа к корпусам в пакете данных NLTK.

1. Напишите программу Python NLTK, чтобы вывести список всех имен корпусов.
Нажмите меня, чтобы увидеть образец решения

2. Напишите программу Python NLTK, чтобы получить список распространенных стоп-слов на разных языках в Python.
Нажмите меня, чтобы увидеть образец решения

3. Напишите программу Python NLTK, чтобы проверить список стоп-слов на разных языках.
Из Википедии:
В вычислениях стоп-слова - это слова, которые отфильтровываются до или после обработки данных на естественном языке (текста). Хотя «стоп-слова» обычно относятся к наиболее распространенным словам в языке, не существует единого универсального списка стоп-слов, используемого всеми инструментами обработки естественного языка, и, действительно, не все инструменты даже используют такой список. Некоторые инструменты специально избегают удаления этих стоп-слов для поддержки поиска по фразе.
Любая группа слов может быть выбрана в качестве стоп-слов для данной цели. Для некоторых поисковых систем это некоторые из наиболее распространенных коротких функциональных слов, таких как, is, at, which и on. В этом случае стоп-слова могут вызвать проблемы при поиске фраз, которые включают их, особенно в таких именах, как «Кто», «The» или «Take That». Другие поисковые системы удаляют из запроса некоторые наиболее распространенные слова, в том числе лексические, такие как «хочу», для повышения производительности.
Нажмите меня, чтобы увидеть образец решения

4. Напишите программу Python NLTK, чтобы удалить стоп-слова из заданного текста.
Нажмите меня, чтобы увидеть образец решения

5. Напишите программу Python NLTK, чтобы исключить некоторые заданные стоп-слова из списка стоп-слов.
Нажмите меня, чтобы увидеть образец решения

6. Напишите программу Python NLTK, чтобы найти определение и примеры данного слова с помощью WordNet.
Из Википедии,
WordNet - это лексическая база данных для английского языка. Он группирует английские слова в наборы синонимов, называемых synsets, предоставляет короткие определения и примеры использования и записывает ряд отношений между этими наборами синонимов или их членами. Таким образом, WordNet можно рассматривать как комбинацию словаря и тезауруса. Хотя он доступен для пользователей через веб-браузер, его основное использование - в приложениях для автоматического анализа текста и искусственного интеллекта. База данных и программные средства были выпущены под лицензией в стиле BSD и свободно доступны для загрузки с веб-сайта WordNet. Доступны как лексикографические данные (файлы лексикографа), так и компилятор (называемый grind) для создания распределенной базы данных.
Нажмите меня, чтобы увидеть образец решения

7. Напишите программу Python NLTK, чтобы найти наборы синонимов и антонимов данного слова.
Из Winkled,
WordNet - это лексическая база данных для английского языка. Он группирует английские слова в наборы синонимов, называемых synsets, предоставляет короткие определения и примеры использования и записывает ряд отношений между этими наборами синонимов или их членами.
Нажмите меня, чтобы увидеть образец решения

8. Напишите программу Python NLTK, чтобы получить обзор набора тегов, сведения о конкретном теге в наборе тегов и сведения о нескольких связанных наборах тегов, используя регулярное выражение.
Нажмите меня, чтобы увидеть образец решения

9. Напишите программу Python NLTK, чтобы сравнить сходство двух данных существительных.
Нажмите меня, чтобы увидеть образец решения

10. Напишите программу Python NLTK, чтобы сравнить сходство двух данных глаголов.
Нажмите меня, чтобы увидеть образец решения

11. Напишите программу Python NLTK, чтобы найти количество мужских и женских имен в корпусе имен. Напечатайте первые 10 мужских и женских имен.
Примечание. Корпус имен содержит в общей сложности около 2943 мужских (male.txt) и 5001 женских (female.txt) имен. Это составлено Kantrowitz, Росс.
Нажмите меня, чтобы увидеть образец решения

12. Напишите программу Python NLTK для печати первых 15 случайных сочетаний с именами мужских и женских имен из корпуса имен.
Нажмите меня, чтобы увидеть образец решения

13. Напишите программу Python NLTK, чтобы извлечь последнюю букву из всех помеченных имен и создать новый массив с последней буквой каждого имени и соответствующей меткой.
Нажмите меня, чтобы увидеть образец решения .

[Хотите внести свой вклад в упражнения Python? Отправьте ваш код (прикрепленный к ZIP-файлу) нам на w3resource [at] yahoo [dot] com. Пожалуйста, избегайте материалов, защищенных авторским правом.]