| | 1 | |
| | 2 | The Information Extraction API of iDocument contains: |
| | 3 | |
| | 4 | |
| | 5 | * Normalization: Text wird extrahiert |
| | 6 | * getFullText() |
| | 7 | |
| | 8 | * Segmentation: Segmente unterteilen den Text |
| | 9 | * getDocuments() |
| | 10 | * getParagraphs(String document) |
| | 11 | * getSentences(String paragraph) |
| | 12 | * getTokens(String sentence) |
| | 13 | |
| | 14 | * Symbolization: Sequenzen von Tokens werden als Symbole erkannt und klassifiziert |
| | 15 | * getSymbols() |
| | 16 | |
| | 17 | * Instantiation: Symbole werden als Instanzen und Relationen erkannt und klassifiziert |
| | 18 | * getKnownInstances() |
| | 19 | * getUnknownInstances() |
| | 20 | * getIntrinsicRelations() |
| | 21 | |
| | 22 | * Contextualization: Instanzen und Relationen werden zu Fakten verknüpft. Im Kontext betrachtet können neue Instanzen und Fakten hinzugenommen werden |
| | 23 | * getIntrinsicFacts() |
| | 24 | * getKnownExtrinsicFacts()and getUnknownExtrinsicFacts() |
| | 25 | * getExtrinsicRelations() |
| | 26 | * getExtrinsicInstances() |