Tokenisierung


Deutschsprachige Wikipedia - Die freie EnzyklopädieDownload this dictionary
Tokenisierung
Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval.

Mehr unter Wikipedia.org...


© Dieser Eintrag beinhaltet Material aus Wikipedia® und ist lizensiert auf GNU-Lizenz für freie Dokumentation und Creative Commons Attribution-ShareAlike License