Tato stránka je postupně aktualizována.
Gate online
Gate online je jedna z komponent (lze nahlédnout ve Schématu systému), která je vytvářena v rámci projektu Extrakce dat z emailů typu Call for papers.
Proč komponenta vzniká
Cílem je vytvořit službu, která bude automaticky značkovat důležité řetězce v textu, a bude dostupná přes internet.
Pracovní postup:
Hotové
- Studium Gate Development
- Vyzkoušení Gate Development na emailu o konferenci
- Studium Gate Embedded
- Vytvoření jednoduché webové aplikace v javě (Tomcat, servlety, JSP)
- Zakomponování Gate ANNIE do aplikace
- Vyzkoušení označkování míst a jmen pomocí webové aplikace
- Zakomponování Gate JapeTransducer? do aplikace
- Vyzkoušení označkování datumů pomocí dodaného JAPE skriptu
- Vytvoření formuláře pro zadávání anotovaného textu
- Vytvoření HTTPRequest? v PHP, který bude využívat GateOnlineServlet?
- Odstranění problémů s pamětí (vyřešilo smazání resources pomocí Factory)
- Úprava PHP klienta - ne fce HTTPRequest?, ale standardní PHP POST..
- Vytvoření PHP POST, který bude načítat anotovaný text a jape skript ze souborů
- Ošetřené vstupní parametry (nejsou.. nevadí..)
- V HTTP POST je možné poslat více textů
- Uvádí se, co má být ve výstupním XML anotováno (např.:czech_date)
- Více jape scriptů by také mělo fungovat (netestováno)
- Přidání parametru do HTTP POST pro nastavení PR, které budou tvořit pipeline (slovní hodnoty třeba jako: "default", "CFPapers?", "onlyCzechDate" ..)
- Umožnit označkování všeho, co bylo nalezeno pomocí PR.. když nebude nic v parametru annotation..
- Refactoring - kód okomentován, zbaven zbytečných výpisů a metod..
- V japscriptech nefunguje =~ .. v Gate funguje.. pravděpodobně kvůli JCompiler?.. starý Transducer vlnovku umí.. řešení nepoužívat zatím reg. výrazy a rozepisovat výrazy typu [Aa]bstract..
- Zprovoznit japescript s více phase.. prozatím rozděleno do více souborů
- Defaultně běží celé ANNIE a czech_date jape skript: process="default", pro nastavení process="CFP" běží vše jako při default a navíc jape skripty important_dates.. je jich celkem 11 - rozdělený původní s více phase..
- Upravit jape skript czech_date - rozdělil jsi na 2 - czech_date_full a czech_date_short..
- Vytvořen parametr, kterým se bude specifikovat, co se značkovat nebude: např.: Token. Parametr se jmenuje "noAnnotation"..
Plánované
- Opravit bug - Vloží se prázdný parametr ("") pro japeScript a spadne to, poohlédnout se po podobných..
- vyzkoušet značkování toho, co bude třeba pro CFPapers?.. odkazy?..
- napsat stručnou dokumentaci k použití Gate online aplikace..
- Testování na reálných datech
- Zátěžové testy
- Zprovoznění služby (zatím přes HTTP) na školním serveru
- Zfunkčnit reg. výrazy v jape skriptech..
- Zprovoznit japescript s více phase..