NLTK Tokenize: прочитайте заданный текст через каждую строку и найдите предложения
NLTK Tokenize : упражнение-8 с решением
Напишите программу Python NLTK, которая будет читать заданный текст через каждую строку и искать предложения. Напечатайте каждое предложение и разделите два предложения на «==============».
Пример решения :
Python Code-1:
import nltk.data
text = '''
Mr. Smith waited for the train. The train was late.
Mary and Samantha took the bus. I looked for Mary and
Samantha at the bus station.
'''
print("\nOriginal Tweet:")
print(text)
sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')
print('\n==============\n'.join(sent_detector.tokenize(text.strip())))
Пример вывода:
Оригинальный твит: Мистер Смит ждал поезда. Поезд опоздал. Мэри и Саманта сели на автобус. Я искал Мэри и Саманта на автовокзале. Мистер Смит ждал поезда. ============== Поезд опоздал. ============== Мэри и Саманта сели на автобус. ============== Я искал Мэри и Саманта на автовокзале.
Пунктуация следующих предложений также включена по умолчанию.
Пример:
Python Code-2:
import nltk.data
text = '''
Mr. Smith waited for the train. (The train was late.)
Mary and Samantha took the bus. I looked for Mary and
Samantha at the bus station [Sector-1].
'''
print("\nOriginal Tweet:")
print(text)
sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')
print('\n==============\n'.join(sent_detector.tokenize(text.strip())))
Выход:
Оригинальный твит: Мистер Смит ждал поезда. (Поезд опоздал.) Мэри и Саманта сели на автобус. Я искал Мэри и Саманта на автовокзале [Сектор-1]. Мистер Смит ждал поезда. ============== (Поезд опоздал.) ============== Мэри и Саманта сели на автобус. ============== Я искал Мэри и Саманта на автовокзале [Сектор-1].
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу Python NLTK, чтобы удалить маркеры имени пользователя Twitter из заданного текста Twitter.
Далее: Напишите программу на языке Python NLTK, чтобы найти выражения в скобках в заданной строке и разделить строку на последовательность подстрок.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования