blob: ee35ffabf7a10094d780382851c5a69070065566 [file] [log] [blame]
#!/bin/bash
if [[ $# -lt 1 ]]; then
echo "Not enough arguments to generation-test.sh";
echo "bash generation-test.sh <corpus>";
exit;
fi
if [[ $1 == "-r" ]]; then
if [[ $# -lt 2 ]]; then
echo $#;
echo "Not enough arguments to generation-test.sh -r";
echo "bash generation-test.sh -r <corpus>";
exit;
fi
args=("$@")
echo "Corpus in: "`dirname $2`;
echo -n "Processing corpus for generation test... ";
rm -f /tmp/af-nl.corpus.txt
for i in `seq 1 $#`; do
if [[ ${args[$i]} != "" && -f ${args[$i]} ]]; then
cat ${args[$i]} >> /tmp/af-nl.corpus.txt
fi
done
echo "done.";
echo -n "Translating corpus for generation test (this could take some time)... ";
cat /tmp/af-nl.corpus.txt | apertium -d ../ af-nl-postchunk | sed 's/[µµ____ɡʧˌɡˈɡɪ_ʊʂˈʹˈʃʀⁿℓℓ_ˈʀにゃɑːˌމލʃɑˌܕܝܪܐܕܡܪܝܓܒܪܐܝܠダホメ트란스요르단አማርኛஸ்ரீஜயவர்த்தனபுரம்கோட்டேɾɐˈɲɐธงฉาน아비시니아네덜란드령기아나ວຽງຈນオートボルタวุฒิสภาトクマルシューゴธงราชนาวีธงไตรรงค์กรุงเทพมหานครˈˇゃˈɡはぁศาลひらがなウィキペディアபொங்கல்สภาผู้แทนราษฎรºăååååÅÅÅãããąāāảÅåêāĀġāææÆÆææðʼĂḥāņążḃććčččČċĆćČččěđĐḓððððḍāʾÐðĐồếếễệěẽẽėėęęĘēḗēēʻẻəəˈɛəəˈˈʎɛˈɛʁɛˈɛʃˌɛəəˌəˈɡʀəˈɛʧɛěłěŕěŕěžėžɛʁˈʒğğġĠģīħĦḥḫĩīīĪıııİİİķĶľŀłłŁḷłąłęłłłŻńńńňņʉŋŋņģēŃńņšṇšŏốồộǒőŐõøøøːØØōṓōŌớʁɔɔɔʁººœœõõøøØøřŘŘřṛṣṇśśŚšššŠŠşŞŞṣśćśćšćščšČšėṣīşışıŞıßßţŢŭǔůűũųųūʻūūūʻừườươūšŮůÿźžžŽŽŽżŻŻþþþþÞÞÞþʒʒʒɛʒɔأبوظبياحمدشاهمسعودایراناردواسلامآبادالجمهريةالتونسيةالخرطومالخرطومبحريالخلافةالراشدةالدارالبيضاءالرباطالرياضالصحراءالغربيةالصحراءالغربيةالعباسيونالعربيةالفاطميونالمدينةالمنورةالمغربالعربيالمملكةالعربيةالسعوديةالمنامةأمدرمانأميرالمؤمنينبغدادبندرسريبڬاوانبيارأمينالجميلپاکستانتهرانجالكعيوجدةجمهوریاسلامیایرانحزباللهخشایارشاخلافةخوروشوفدارالسلامداغستاندولةالكويترخزرنيخزنگبارستادالملكفهدالدوليسيحونشاهصدامحسينعبدالمجيدالتكريتيصنعاءعثمانبنعفانعربʻعشقآبادعكاعلممصرعليبنأﺑﻲطالبعمربنالخطابغارويفاسقطاعغزةلبنانليلىخالدمحموداحمدینژادمدينةالكويتمراكشمسقطمشهدمیشودومیتوانیممكةمكةالمكرمةمنظمةالتحريرالفلسطينيةمورونينداآقاسلطاننیشابورنواكشوطهرجيساههریمىكوردستانڤوتراجايوديعسعادةאביסיניעאליאפללוארגענטינעבנימיןנתניהוגיוראאפשטייןגילהגמליאלדודיסלעווילנעחבשחרושציהודהעמיטליהוהיוחנןוולךיידישעקאמףארגאניזאציעיעקבישועמלךהמשיחנאווארעדאקנירברקתסיירתמטכלעבריתעיטורהמופתעכופױזןראובןראשהשנהרצועתעזהשבתשטאטשטעטלשטעטלעךשלמהשערלמתחילתשעהבאבΑΑʹααααΑβυσσινίαὙάδεςΑεροπόςΑΑθηναιΑἰθήρΆΐδηςΑὐλωνιάςΆνωΒόλταΑραχνοφοβίαΑργαίοςΆρηςΑριστοτέληςΆρχιμήδηςΆσπενδοςαστρολογιαάστρονἸάσωνΒʹββββακτηριονβάροςἭβηβιβλιαβιβλιονβίοςβοῦςβουλήΒριάρεωςβρωμοςΒυζαντινήΑυτοκρατορίαΒυζάντιογΓαῖαγαλαξίαςἈγαμέμνωνΓανυμήδηςΓεώργιοςΓεώργιοςΑʹΓεώργιοςΡουμπάνηςγηγράφεινγραφιςΓύγηςΔΔδΔαίδαλοςΔήλοςΔημήτηρΔημήτρηςΠᾍδηςδιασποράΔιόνυσοςδρομοςδυναμιςὈδυσσεύςῬέαεγκύκλιοςπαιδείαειςτήνπόλινΕξωστρακισμόςΕπικόςΚύκλοςἹεράπολιςἈέροποςΒεὐρύςΕὐρώπηηΉραθθθΘαλῆςὁΜιλήσιοςΘάνατοςΘείαΘέμιςΘεοδόσιοςθεοίχθόνιοιθεοςΘεοςτουΜετροΘέτιςἈθηνᾶΘησεύςΘουκυδίδηςὌθωνΙαξάρτηςἍιδηςΊησουςιπποςιτηςκαδμείαΚάδμοςκαθέδραΚαλλίπολιςΚαππαδοκίαΚάρανοςΚαρίαἼκαροςἙκατόγχειρεςἑκατόνὨκεανίδεςὨκεανίςΚένταυροιΚεντρικόΣχολείοΚεϋλάνηΚλήμηςΑλεξανδρεύςκλίμαΚοίνοςΚοῖοςΚόττοςκρέαςΚρεῖοςΚρηναῖαιΚρόνοςκρυπτόςΚυκλάδεςκυκλάςΚωνσταντίνοςΠαπαρρηγόπουλοςΚωνσταντῖνοςΑʹΚωνσταντῖνοςΒʹλλΛαμπάδεςλαόςΛειμενίδεςἤλεκτρονἈλέξανδροςἈλέξανδροςΒἈλέξανδροςὁΜακεδώνΛητώἸλιάςΛιβύηἈλικαρνασσόςἉλικαρνᾱσσόςἭλιοςἈλκέταςἈλκέταςὁΜακεδὼνλογοςλόγοςὅλοςἈλσηΐδεςμμμἈμαζόνεςΜακεδονίαΜέδουσαΜελίαιΜενοίτιοςἩμέραΜέστριοςΠλούταρχοςμετρονΜίλμισθοφορίαΜολώνλαβέμοῖραΜοῖραιμυϑολογεινμυϑολογίαμυϑοςἈμύνταςἈμύνταςΓἈμύνταςΔνννἈναξαγόραςἈναξιμήνηςναπαῖαιΝέαΠόλιςνεράϊδανημοσύνηΝηρηΐδεςξενοςΞέρξηςόοΑρχέλαοςΟἰδίπουςοιμούσεςΟὐρανόςοἱἈργεάδαιοΤέωςοτέωςβασιλιάςππππππΠαῦλοςΠάνΠαναίτιοςπαραβολήΠαυσανίαςἈπέλλωνὑπερβολήΠερδίκκαςΒΠερδίκκαςΓΠερικλῆςπεριμετροςὙπερίωνΠερσεύςΠηγαῖαιΠηλεύςΠηνελόπειαΠηνελόπηπλπλανήτηςΠλειάδεςπλεῖνΠλούταρχοςποίησιςἈπόλλωνΠόντοςπόροςΠοσειδῶνΠοταμοίἽππαρχοςἱπποπόταμοςΠριγκηπονήσιαΠριγκήπωννήσοιΠτολεμαῖοςὉΠυθαγόραςὉΠυθαγόραςὁΣάμιοςἘπώνυμοςἄρχωνρἜρεβοςὈρέστηςὀρθόςἈριάμνηςἈριαράθηςἈριαράθηςἈριαράθηςΕὐσεϐήςἈριαράθηςΕὐσεϐήςΦιλάδελφοςἈριαράθηςΕὐσεβήςΦιλοπάτωρἈριαράθηςΕὐσεϐήςΦιλοπάτωρἈριαράθηςἘπιφανήςἈριαράθηςἘπιφανήςΦιλοπάτωρἈριαράθηςΦιλομήτωρἘρινύεςἈριοϐαρζάνηςΕὐσεϐήςΦιλορώμαιοςἈριοϐαρζάνηςΦιλοπάτωρἈριοϐαρζάνηςΦιλορώμαιοςἈρίσταρχοςροδανόςἀρχἈρχέλαοςΑἄρχοντεςἄρχωνΡώμηἜρωςσΣάτυροισεισάχθειαΣελάναΣίσυφοςἈσκληπιόςΣπάρτηἙσπερίδεςσπέρμαἙστίαστοιχειονστροςΣτύξτΤάνταλοςταΠριγκηπόνησαΤάρταροςτετραγράμματονΤηθύςΤιτάνΤιτᾶνεςΤῶνἈράτουκαὶΕὐδόξουφαινομένωνἐξήγησιςΤόχαροιΤραπεζούντατυραννίςτύραννοςἭφαιστοςΦανάριἘφιάλτηςΦιλαδέλφειαΦίλιπποςΑφιλολογίαφοβοςφυσικόςφύσιςφωςΧαοςχείρΧείρωνχθώνἈχιλλεύςἄχοςΧριστόςΧρόνοςὄψΩΩΏἨώςАбазаБызшваАбисинијаАбисинияАбиссинияавтомАдамМіцкевічадыгАзиатскоАйзекАзимовАлександрАлександрАлександрИльичУльяновАлександровскийдворецАлександрЯрославичНевскийАлёшаПоповичАлисаЗиновьевнаРозенбаумАлтайскийкрайАляксандрІгаравічРыбакАмуроАмурскаяобластьАмурскийкрайАнастасияРомановнаЗахарьинаАндрейИвановичКобылаАндрейКасайАндрейЯрославичАничковдворецАннаИоанновнаАрсенальнаяУгловаябашняАрхипелагГУЛАГАстанаАхматАбдулхамидовичКадыровБабаБабаЯгаБабаЯґаБарнаулБашБеклемишевскаябашняБеларусьБеоградбесБишкекблагимматомБлаговещенскаябашняБогатыриБольшевикиБольшойГатчинскийдворецБольшойсловарьматаБорисФёдоровичГодуновБоровицкаябашняБратБратваБратскБратьяКарамазовыБританскийГондурасБританскиХондурасБургасбуряадхэлэнбългарскиезиквВВалерийЛеонтьевВарнаВасилийВасилийЯрославичВелесовакнигавеликаякнягинявеликийкнязьвеликийкнязьВеликоеКняжествоМосковскоеВенераВикторМихайловичВаснецовВильнаВильнюсВильнюсВіліяВільнявлагаВладивостокВладимирВладимирВладимировичМаяковскийВладимирВладимировичПутинВладимирВольфовичЖириновскийВладимирИльичЛенинВладимирскийдворводитьводкаполухлебноговинаводкахлебноговинаВодовзводнаябашняВодянаябашняВолгаВолгаВолгоградВолодимирВоскресенскиеворотаВостокВосточнаяАзияВостраяБрамаВосходврагинародавредителиВсеволодВсеволодвсеяРусиВтораяБезымяннаябашняГавриилГаллейГеройРоссииГеройРоссийскойФедерацииГеройСоветскогоСоюзаГІалгІаймоттГлавноеуправлениеисправительноГлавныйУниверсальныйМагазинГледенГЛОбальнаяНАвигационнаяСпутниковаяСистемаГорячиескалыГорячиеСкалыГосударственныйИсторическиймузейГосударственныйИсторическиймузейГосударственныйУниверсальныйМагазинГригорийЕфимовичРаспутинГригорийЕфимовичНовыйгромитьгрупповщинаГубернскоеправлениеГУЛАГДДавидФёдоровичОйстрахДагомеяДажбогДальнийВостокРоссииДворецБелосельскихДворецтрудаДедМороздждзДзвДимаБиланДмитрийДонскойДмитрийМихайловичПожарскийДмитрийМихайловичТверДобрыняНикитичДондругДушанбеебатьебатьменявротЕвгенийВикторовичВучетичЕвгенийГорбуновЕкатеринаЕкатеринаВеликаяЕкатеринбургЕкатерингофЕкатерининскийдворецЕлагиндворецЕлизаветаПетровнаЕрмакТимофеевичетитьёёёбтвоюматьЖаргонпадонковЗабайкальскийкрайЗавоссеЗападнаяДвинаЗвёздныйгородокЗемщинаЗенитЗимнийдворецЗондѕИвИванИванГрозныйИванЦаревичИванЯковлевичБилибинИверскиеворотаИгорьИдиотиздательствоИзяславИзяславЯрославичИльяМуромецимператоримператрицаИнженерныйзамокИоаннИркутскИсаакОзимовискусственныйспутникЗемлиИсследованиемировыхпространствреактивнымиприборамиїҚазақстанРеспубликасыКазанскийсоборКамчатскийкрайКемеровоКёнигКёнигсбергКёнигсбергКижиКиївкняжествоМосковскоекнязьГеоргийЛьвовКоломенскоеКомендантскаябашняКомратКонстантинокопейкакопьёКораблькорольКосмоскраснаяКраснаямафияКраснаяплКраснодарКраснодарскийкрайКрасноярскийкрайКрасныйЯрКремлькрошитьКузнецкКурильскиеостроваКуршскийзаливКутафьябашняКучумКъарачайЛЛенаЛетнийдворецЛжедимитрийЛобноеместоЛобноеместолубокЛуноходМавзолейВМавзолейВМакедонскиМариинмариййылмеМарияФёдоровнамарыйлмыматматьМеньшевикимечМикоянМиГМихаилВасильевичНестеровМихаилГорбачёвМихаилТимофеевичКалашниковМихаилФёдоровичРомановМихайловскийзамокМихалкоМолниямолокМонголУлсМоскваМоскваМоскваМоскворецкаябашняМосковскийгосударственныйуниверситетимениММосковскийКремльМосковскиймеждународныйделовойцентрМраморныйдворецМстиславВладимировичВеликийМынабатНабатнаябашняНавагрудакнадцатьНаркотикинаследникцесаревичНеваНекропольуКремлёвскойстеныНеманНёманНижегородскаяобластьНиколаевскийдворецНиколайНикольскаябашнянихуясебеНовгородскаяобластьНовиХебридиНовогрудокНовокузнецкНовосибирскНовосибирскаяобластьНовосибирскиеостроваНовыйНохчийнмоттообластьОгопьОдессаОдинденьИванаДенисовичаОкаОкрошкаоктябрьскаяреволюцияОмскопенгагенОпричнинаопричьОраниенбаумОрдэзэнОрловскаяобластьОружейнаябашняОткрытыйСанктОхотскоемореОхотскоемореПавелПавелПетровичПавловскПагоняПамятникМининуиПожарскомуПамятникМининуиПожарскомуПерваяБезымяннаябашняПермскийкрайПермьПерсијаПетергофПетергофскийпраздникПетровскаябашняПетропавловскПётрПётрИльичЧайковскийпогромподонкиПокровскийсоборПокровскийСоборПравдапредтечаПреступлениеинаказаниеПриамурьеПриморскийкрайПриморьепролетарскаякультураПростейшийСпутникПушкинРаврасколрасколраскольникираспутникраспутныйРепубликаМакедонијаРеспубликаДагестанРеспубликаКомиРеспубликаМарийЭлрокнакостяхРоманРоманКутновРомановРомановРоссийскаяСоветскаяФедеративнаяСоциалистическаяРеспубликаРоссийскиенемцыРостоврублейрубльрубльрубляРусланаСтепанівнаЛижичкоРусскаямафияРусскиеРусскийКовчегрусскийязыкРѣчъпосполитаяѡбоиганародовъСавезнаРепубликаЈугославијаСалютсамСамараСамиздатСарајевоСвибловабашняСвятополкСвятополкОкаянныйСвятославСвятославСвятославЯрославичСеверныйморскойпутьСемёнИвановичГордыйСенатскаябашняСергейЛедовскийСергейЮльевичВиттеСибирскиетраппыСибирскийТрактСибирьСибирьиДальнийВостокСИТИСихотэСоборКазанскойиконыБожиейМатериСоборПокровачтонаРвуСодружествоНезависимыхГосударствСофияСпасскаябашняСпутникСрбијаиЦрнаГораСредняяАрсенальнаябашняСтавропольскийкрайСталинабадСталинскСталинскиевысоткистароверыСтароверыСтрсубъектыСучьявойнаСырдарьяТаврическийдворецТайницкаябашняТашкентТираспольТихийДонТобольскТомскаяобластьтоҷикӣТранссибТранссибирскаямагистральТранссибирскаямагистральТриумфТриумфТроицеТроицкаябашняТуваТунгускаТываТывадылудмурткылУльяновУльяновскаяобластьУральскиегорыустьеУстюгУфаФаддейФаддеевичБеллинсгаузенФедеральнаяслужбабезопасностиРоссийскойФедерациифедеральныеокругаФедерацияФерапонтовмонастырьФёдорФёдорБорисовичГодуновФёдорВладимировичЕмельяненкоФобосФормозаФутбольныйклубКубаньКраснодарХабаровскХабаровскийкрайХакастіліХальмгкелнХантыхантыясангХеладахлебХождениепомукамХоландскаГвајанахорошоХрамВасилияБлаженногоХрамХристаСпасителяХрущёвцаревичцаревнацарицаЦарскаябашняЦарскоеселоЦарствоРусскоецарьцарьЦейлонЦејлонЦентральнопромышленнаяобластьцесаревичцесаревнаЦрвеназвездаЧернивръхЧёрнаяАкулаЧумнойбунтшестнадцатьшквалщыьээрзянькельююгюгЮлЮрийАлексеевичГагариняядернаявключеннаясубмаринаЯмалоЯнаЯнтарныйКрайЯрополкЯрославЯрославльЯрославМудрыйԷրեբունիՀայաստանՀայերենլեզուՀայքՊարսկաստանასოასომთავრულიაჭარაბათუმითბილისიმთავარიმხედრულინუსხურიქართულიენაइंदिराप्रियदर्शिनीगांधीकानपुरकृष्णजटायूजयपुरजैनधर्मजंगलजंगलबातचलीहैदिल्लीनेपालअधिराज्यपटनापुणेपुरमोहनदासकरमचन्दगांधीवंदनाशिवासिंहहिन्दीસુરત上海京城京都内蒙古北京北千島北方領土北海南京南京市南千島南千島周树人周樹人和橋鎮唐国家体育场國家體育場地区级地级大和대한민국大韓民國天津市奉天孔夫子小琉球川端康成平仮名ひらがな広島市府廣州成都市数独新幹線早川俊夫木簡東京東京柔道スズキ株式会社水木一郎汉武帝沈阳オホーツク海深圳市漢字漢字漢字かんじ漢武帝片仮名カタカナ狩野元信玉白話皇居県篪蔡英文裕仁西安西安市象象棋道都都道府県鄭和重庆市金星長安長野市骨魯]//g' | sed 's/\$\W*\^/$\n^/g' > /tmp/af-nl.gentest.postchunk
echo "done.";
fi
if [[ ! -f /tmp/af-nl.gentest.postchunk ]]; then
echo "Something went wrong in processing the corpus, you have no output file.";
echo "Try running:"
echo " sh generation-test.sh -r <corpus>";
exit;
fi
cat /tmp/af-nl.gentest.postchunk | sed 's/^ //g' | grep -v -e '@' -e '*' -e '[0-9]<num>' -e '#}' -e '#{' | sed 's/\$>/$/g' | sed 's/^\W*\^/^/g' | sort -f | uniq -c | sort -gr > /tmp/af-nl.gentest.stripped
cat /tmp/af-nl.gentest.stripped | grep -v '\^\W<' | lt-proc -d ../af-nl.autogen.bin > /tmp/af-nl.gentest.surface
cat /tmp/af-nl.gentest.stripped | grep -v '\^\W<' | sed 's/^ *[0-9]* \^/^/g' > /tmp/af-nl.gentest.nofreq
paste /tmp/af-nl.gentest.surface /tmp/af-nl.gentest.nofreq > /tmp/af-nl.generation.errors.txt
cat /tmp/af-nl.generation.errors.txt | grep -v '#' | grep '\/' > /tmp/af-nl.multiform
cat /tmp/af-nl.generation.errors.txt | grep '[0-9] #.*\/' > /tmp/af-nl.multibidix
cat /tmp/af-nl.generation.errors.txt | grep '[0-9] #' | grep -v '\/' > /tmp/af-nl.tagmismatch
echo "";
echo "===============================================================================";
echo "Multiple surface forms for a single lexical form";
echo "===============================================================================";
cat /tmp/af-nl.multiform
echo "";
echo "===============================================================================";
echo "Multiple bidix entries for a single source language lexical form";
echo "===============================================================================";
cat /tmp/af-nl.multibidix
echo "";
echo "===============================================================================";
echo "Tag mismatch between transfer and generation";
echo "===============================================================================";
cat /tmp/af-nl.tagmismatch
echo "";
echo "===============================================================================";
echo "Summary";
echo "===============================================================================";
wc -l /tmp/af-nl.multiform /tmp/af-nl.multibidix /tmp/af-nl.tagmismatch