The Information Extraction API of iDocument contains:


 * Normalization: Text wird extrahiert
  * getFullText()

 * Segmentation: Segmente unterteilen den Text
  * getDocuments()
  * getParagraphs(String document)
  * getSentences(String paragraph)
  * getTokens(String sentence)    

 * Symbolization: Sequenzen von Tokens werden als Symbole erkannt und klassifiziert
  * getSymbols()

 * Instantiation: Symbole werden als Instanzen und Relationen erkannt und klassifiziert
  * getKnownInstances()
  * getUnknownInstances()
  * getIntrinsicRelations()

 * Contextualization: Instanzen und Relationen werden zu Fakten verknüpft. Im Kontext betrachtet können neue Instanzen und Fakten hinzugenommen werden
  * getIntrinsicFacts()
  * getKnownExtrinsicFacts()and getUnknownExtrinsicFacts()
  * getExtrinsicRelations()
  * getExtrinsicInstances()