кодесурса
«Python

NLTK Tokenize: токенизация предложений на языках, отличных от английского

script1adsense2code
script1adsense3code

NLTK Tokenize: упражнение 2 с решением

Напишите программу Python NLTK для токенизации предложений на языках, отличных от английского.

Пример решения :

Код Python:

text = 
'''
NLTK ist Open Source Software. Der Quellcode wird unter den Bedingungen der Apache License Version 2.0 vertrieben.  
Die Dokumentation wird unter den Bedingungen der Creative Commons-Lizenz Namensnennung - Nicht kommerziell - Keine 
abgeleiteten Werke 3.0 in den Vereinigten Staaten verteilt.
'''
print("\nOriginal string:")
print(text)
from nltk.tokenize import sent_tokenize
token_text = sent_tokenize(text, language='german')
print("\nSentence-tokenized copy in a list:")
print(token_text)
print("\nRead the list:")
for s in token_text:
    print(s)

Пример вывода:

 Исходная строка:
NLTK - это программное обеспечение с открытым исходным кодом. Der Quellcode Wird Unter Den Bedingungen der Apache Лицензия Версия 2.0 vertrieben. Die Dokumentation Wird Unter Den Bedingungen der Creative Commons-Lizenz Namensnennung - Nicht kommerziell - Keine abgeleiteten Werke 3.0 in den Vereinigten Staated verteilt.
Копия с предложением в списке:
['NLTK ist с открытым исходным кодом.', 'Der Quellcode Wird Unter Den Bedingungen der Apache License Version 2.0 vertrieben.', 'Die Dokumentation Wird Unter Den Bedingungen der Creative Commons-Lizenz Namensnennung - Все права защищены - Keine abgeleiteten Werke 3.0 в день 3.0 Staate Verteilt. ']
Прочитайте список:
NLTK - это программное обеспечение с открытым исходным кодом.
Der Quellcode Wird Unter Den Bedingungen der Apache Лицензия Версия 2.0 vertrieben.
Die Dokumentation Wird Unter Den Bedingungen der Creative Commons-Lizenz Namensnennung - Nicht kommerziell - Keine abgeleiteten Werke 3.0 in den Vereinigten Staated verteilt.

Есть другой способ решить это решение? Внесите свой код (и комментарии) через Disqus.

Предыдущий: Напишите программу Python NLTK, чтобы разбить текстовое предложение / абзац на список слов.
Далее: Напишите программу на языке Python NLTK, чтобы создать список слов из заданной строки.

Каков уровень сложности этого упражнения?

Новый контент: Composer: менеджер зависимостей для PHP , R программирования


script1adsense4code
script1adsense5code
disqus2code
script1adsense6code
script1adsense7code
script1adsense8code
buysellads2code