Hlavní menu

Nástroje

LubomirKrcmar / GateOnline

View (print) - Edit page | Recent changes - Page history

Updated 07 April 2010, 19:02 by Lubomír Krčmář

Tato stránka je postupně aktualizována.

Gate online

Gate online je jedna z komponent (lze nahlédnout ve Schématu systému), která je vytvářena v rámci projektu Extrakce dat z emailů typu Call for papers.

Proč komponenta vzniká

Cílem je vytvořit službu, která bude automaticky značkovat důležité řetězce v textu, a bude dostupná přes internet.

Pracovní postup:

Hotové

  • Studium Gate Development
  • Vyzkoušení Gate Development na emailu o konferenci
  • Studium Gate Embedded
  • Vytvoření jednoduché webové aplikace v javě (Tomcat, servlety, JSP)
  • Zakomponování Gate ANNIE do aplikace
  • Vyzkoušení označkování míst a jmen pomocí webové aplikace
  • Zakomponování Gate JapeTransducer? do aplikace
  • Vyzkoušení označkování datumů pomocí dodaného JAPE skriptu
  • Vytvoření formuláře pro zadávání anotovaného textu
  • Vytvoření HTTPRequest? v PHP, který bude využívat GateOnlineServlet?
  • Odstranění problémů s pamětí (vyřešilo smazání resources pomocí Factory)
  • Úprava PHP klienta - ne fce HTTPRequest?, ale standardní PHP POST..
  • Vytvoření PHP POST, který bude načítat anotovaný text a jape skript ze souborů
  • Ošetřené vstupní parametry (nejsou.. nevadí..)
  • V HTTP POST je možné poslat více textů
  • Uvádí se, co má být ve výstupním XML anotováno (např.:czech_date)
  • Více jape scriptů by také mělo fungovat (netestováno)
  • Přidání parametru do HTTP POST pro nastavení PR, které budou tvořit pipeline (slovní hodnoty třeba jako: "default", "CFPapers?", "onlyCzechDate" ..)
  • Umožnit označkování všeho, co bylo nalezeno pomocí PR.. když nebude nic v parametru annotation..
  • Refactoring - kód okomentován, zbaven zbytečných výpisů a metod..
  • V japscriptech nefunguje =~ .. v Gate funguje.. pravděpodobně kvůli JCompiler?.. starý Transducer vlnovku umí.. řešení nepoužívat zatím reg. výrazy a rozepisovat výrazy typu [Aa]bstract..
  • Zprovoznit japescript s více phase.. prozatím rozděleno do více souborů
  • Defaultně běží celé ANNIE a czech_date jape skript: process="default", pro nastavení process="CFP" běží vše jako při default a navíc jape skripty important_dates.. je jich celkem 11 - rozdělený původní s více phase..
  • Upravit jape skript czech_date - rozdělil jsi na 2 - czech_date_full a czech_date_short..
  • Vytvořen parametr, kterým se bude specifikovat, co se značkovat nebude: např.: Token. Parametr se jmenuje "noAnnotation"..

Plánované

  • Opravit bug - Vloží se prázdný parametr ("") pro japeScript a spadne to, poohlédnout se po podobných..
  • vyzkoušet značkování toho, co bude třeba pro CFPapers?.. odkazy?..
  • napsat stručnou dokumentaci k použití Gate online aplikace..
  • Testování na reálných datech
  • Zátěžové testy
  • Zprovoznění služby (zatím přes HTTP) na školním serveru
  • Zfunkčnit reg. výrazy v jape skriptech..
  • Zprovoznit japescript s více phase..