NLTK Tokenize: токенизация предложений на языках, отличных от английского
NLTK Tokenize: упражнение 2 с решением
Напишите программу Python NLTK для токенизации предложений на языках, отличных от английского.
Пример решения :
Код Python:
text =
'''
NLTK ist Open Source Software. Der Quellcode wird unter den Bedingungen der Apache License Version 2.0 vertrieben.
Die Dokumentation wird unter den Bedingungen der Creative Commons-Lizenz Namensnennung - Nicht kommerziell - Keine
abgeleiteten Werke 3.0 in den Vereinigten Staaten verteilt.
'''
print("\nOriginal string:")
print(text)
from nltk.tokenize import sent_tokenize
token_text = sent_tokenize(text, language='german')
print("\nSentence-tokenized copy in a list:")
print(token_text)
print("\nRead the list:")
for s in token_text:
print(s)
Пример вывода:
Исходная строка: NLTK - это программное обеспечение с открытым исходным кодом. Der Quellcode Wird Unter Den Bedingungen der Apache Лицензия Версия 2.0 vertrieben. Die Dokumentation Wird Unter Den Bedingungen der Creative Commons-Lizenz Namensnennung - Nicht kommerziell - Keine abgeleiteten Werke 3.0 in den Vereinigten Staated verteilt. Копия с предложением в списке: ['NLTK ist с открытым исходным кодом.', 'Der Quellcode Wird Unter Den Bedingungen der Apache License Version 2.0 vertrieben.', 'Die Dokumentation Wird Unter Den Bedingungen der Creative Commons-Lizenz Namensnennung - Все права защищены - Keine abgeleiteten Werke 3.0 в день 3.0 Staate Verteilt. '] Прочитайте список: NLTK - это программное обеспечение с открытым исходным кодом. Der Quellcode Wird Unter Den Bedingungen der Apache Лицензия Версия 2.0 vertrieben. Die Dokumentation Wird Unter Den Bedingungen der Creative Commons-Lizenz Namensnennung - Nicht kommerziell - Keine abgeleiteten Werke 3.0 in den Vereinigten Staated verteilt.
Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.
Предыдущий: Напишите программу Python NLTK, чтобы разбить текстовое предложение / абзац на список слов.
Далее: Напишите программу на языке Python NLTK, чтобы создать список слов из заданной строки.
Каков уровень сложности этого упражнения?
Новый контент: Composer: менеджер зависимостей для PHP , R программирования
disqus2code