NLTK Tokenize: поиск выражений в скобках в заданной строке и деление на последовательность подстрок
NLTK Tokenize: упражнение 9 с решением
Напишите программу на языке Python NLTK, чтобы найти заключенные в скобки выражения в заданной строке и разделить строку на последовательность подстрок.
Пример решения :
Код Python:
from nltk.tokenize import SExprTokenizer
text ='(a b (c d)) e f (g)'
print("\nOriginal Tweet:")
print(text)
print(SExprTokenizer().tokenize(text))
text ='(a b) (c d) e (f g)'
print("\nOriginal Tweet:")
print(text)
print(SExprTokenizer().tokenize(text))
text ='[(a b (c d)) e f (g)]'
print("\nOriginal Tweet:")
print(text)
print(SExprTokenizer().tokenize(text))
print(text)
print(SExprTokenizer().tokenize(text))
text ='{a b {c d}} e f {g}'
print("\nOriginal Tweet:")
print(text)
print(SExprTokenizer().tokenize(text))
Пример вывода:
Оригинальный твит: (ab (cd)) ef (g) ['(ab (cd))', 'e', 'f', '(g)'] Оригинальный твит: (ab) (cd) e (fg) ['(ab)', '(cd)', 'e', '(fg)'] Оригинальный твит: [(ab (cd)) ef (g)] ['[', '(ab (cd))', 'e', 'f', '(g)', ']'] [(ab (cd)) ef (g)] ['[', '(ab (cd))', 'e', 'f', '(g)', ']'] Оригинальный твит: {ab {cd}} ef {g} ['{ab {cd}} ef {g}']
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code