NLTK Tokenize: упражнения с решением
Python NLTK Tokenize [9 упражнений с решением]
Что такое токенизация?
Токенизация - это процесс разграничения и, возможно, классификации разделов строки входных символов. Полученные токены затем передаются в другую форму обработки. Этот процесс можно считать подзадачей анализа ввода.
1. Напишите программу Python NLTK, чтобы разбить текстовое предложение / абзац на список слов.
Нажмите меня, чтобы увидеть образец решения
2. Напишите программу Python NLTK для токенизации предложений на языках, отличных от английского.
Нажмите меня, чтобы увидеть образец решения
3. Напишите программу Python NLTK, чтобы создать список слов из заданной строки.
Нажмите меня, чтобы увидеть образец решения
4. Напишите программу Python NLTK, чтобы разбить все знаки препинания на отдельные токены.
Нажмите меня, чтобы увидеть образец решения
5. Напишите программу на языке Python NLTK для токенизации слов с точки зрения предложения.
Нажмите меня, чтобы увидеть образец решения
6. Напишите программу на Python NLTK для токенизации текста в Твиттере.
Нажмите меня, чтобы увидеть образец решения
7. Напишите программу Python NLTK, чтобы удалить маркеры имени пользователя Twitter из заданного текста Twitter.
Нажмите меня, чтобы увидеть образец решения
8. Напишите программу Python NLTK, которая будет читать заданный текст через каждую строку и искать предложения. Напечатайте каждое предложение и разделите два предложения на «==============».
Нажмите меня, чтобы увидеть образец решения
9. Напишите программу Python NLTK, чтобы найти выражения в скобках в данной строке и разделить строку на последовательность подстрок.
Нажмите меня, чтобы увидеть образец решения
[Хотите внести свой вклад в упражнения Python - NLTK? Отправьте ваш код (прикрепленный к ZIP-файлу) нам на w3resource [at] yahoo [dot] com. Пожалуйста, избегайте материалов, защищенных авторским правом.]
Новый контент: Composer: менеджер зависимостей для PHP , R программирования