wiki:api

Version 1 (modified by horak, 17 years ago) (diff)

--

The Information Extraction API of iDocument contains:

  • Normalization: Text wird extrahiert
    • getFullText()
  • Segmentation: Segmente unterteilen den Text
    • getDocuments()
    • getParagraphs(String document)
    • getSentences(String paragraph)
    • getTokens(String sentence)
  • Symbolization: Sequenzen von Tokens werden als Symbole erkannt und klassifiziert
    • getSymbols()
  • Instantiation: Symbole werden als Instanzen und Relationen erkannt und klassifiziert
    • getKnownInstances()
    • getUnknownInstances()
    • getIntrinsicRelations()
  • Contextualization: Instanzen und Relationen werden zu Fakten verknüpft. Im Kontext betrachtet können neue Instanzen und Fakten hinzugenommen werden
    • getIntrinsicFacts()
    • getKnownExtrinsicFacts()and getUnknownExtrinsicFacts()
    • getExtrinsicRelations()
    • getExtrinsicInstances()