Version 1 (modified by horak, 17 years ago) (diff) |
---|
The Information Extraction API of iDocument contains:
- Normalization: Text wird extrahiert
- getFullText()
- Segmentation: Segmente unterteilen den Text
- getDocuments()
- getParagraphs(String document)
- getSentences(String paragraph)
- getTokens(String sentence)
- Symbolization: Sequenzen von Tokens werden als Symbole erkannt und klassifiziert
- getSymbols()
- Instantiation: Symbole werden als Instanzen und Relationen erkannt und klassifiziert
- getKnownInstances()
- getUnknownInstances()
- getIntrinsicRelations()
- Contextualization: Instanzen und Relationen werden zu Fakten verknüpft. Im Kontext betrachtet können neue Instanzen und Fakten hinzugenommen werden
- getIntrinsicFacts()
- getKnownExtrinsicFacts()and getUnknownExtrinsicFacts()
- getExtrinsicRelations()
- getExtrinsicInstances()