ლიანა ლორთქიფანიძე

აკადემიური დოქტორი

არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტი

დაასკანერე

რუსულ სალექსიკონო ერთეულთა ავტომატური კლასიფიკაცია გრამატიკული მახასიათებლების მიხედვითლ. ლორთქიფანიძესტატიაგამომც. "სანი" / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2002 / N 6, გვ. 199-2060 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
ქართული ტექსტური მასივების ტეგერ-პარსერილ. ლორთქიფანიძესტატიასაქართველოს მეცნიერებათა აკადემიის საწარმოო-საგამომცემლო გაერთიანება „მეცნიერება“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2003 / N 7, გვ. 189-1970 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
Record and reproduction of morphological functionsლ. ლორთქიფანიძეკონფერენციის კრებულიProceedings of the 5th Tbilisi Symposium on Language, Logic and Computation. ILLC, University of Amsterdam CLLS, Tbilisi State University, 2003 pp. 105-1110 ISBN 90-6776-130-0 ინგლისურისახელმწიფო მიზნობრივი პროგრამა
ქართულ-რუსულ-ინგლისური სიტყვა-სიტყვითი ინტერპრეტატორი (ავტომატური თარგმნის საკითხისათვის)ლ. ლორთქიფანიძეკონფერენციის კრებულიგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2004 / N 8, გვ. 164-1680 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
მორფოლოგიური ხერხები და მორფოლოგიური ნიშნებილ. ლორთქიფანიძესტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2005 / N 9,გვ. 275-2820 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
GeoTrans სისტემის გამოყენება ქართულ “სპელჩეკერში”ლ. ლორთქიფანიძესტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2006 / N 10 გვ. 187-1920 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
ქართული ენის კომპიუტერული სუფლიორილ. ლორთქიფანიძესტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2007 / N 11. გვ. 168-1740 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
ენის მორფოლოგიის წარმოდგენა ექსპერტულ სისტემაშილ. ლორთქიფანიძესტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2007 / N 12 გვ. 175-1810 ISSN 0135-0765 ქართულისაგრანტო პროექტი
Three Aspects of Language Modellingლორთქიფანიძე ლ., დოკვაძე ე., ჩიკოიძე გ.სტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2008 / N 12 გვ. 149-1600 ISSN 0135-0765 ინგლისურისაგრანტო პროექტი
ენის მორფოლოგიური მახასიათებლების სახეთა ამოცნობალორთქიფანიძე ლ.სტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2008 / N 12 გვ. 169-1750 ISSN 0135-0765 ქართულისაგრანტო პროექტი
Modeling of derivation in the Multilingual Expert Systemsლორთქიფანიძე ლ., ამირეზაშვილი ნ., სამსონაძე ლ.სტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2008წ. გვ. 176-1810 ISSN 0135-0765 ინგლისურისახელმწიფო მიზნობრივი პროგრამა
ქართული ენის „კომპიუტერული სუფლიორის“ ხელშემწყობი ლექსიკონების პროგრამული უზრუნველყოფალ. ლორთქიფანიძესტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2009 / N 13. გვ. 154-1610 ISSN 0135-0765 ქართულისაგრანტო პროექტი
კომპიუტერულ-განმარტებითი ლექსიკონის მორფოლოგიური ზონის სტრუქტურის რეალიზაციალ. ლორთქიფანიძესტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2009 / N 13.. გვ. 162-1660 ISSN 0135-0765 ქართულისაგრანტო პროექტი
მულტიენობრივი კონკორდანსის კომპილაციის ნახევრადავტომატური სისტემალ. ლორთქიფანიძესტატიაგამომცემლობა „ინტელექტი“ / საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2010 / N 14 გვ. 188-192.0 ISSN 0135-0765 ქართულისაგრანტო პროექტი
Разработка менеджера корпуса грузинских литературных текстовლორთქიფანიძე ლ., ერემიანი რ.კონფერენციის კრებულიმინსკის სახელმწიფო ლინგვისტური უნივერსიტეტის საერთაშორისო კონფერენციის „კონტრასტული კვლევები და გამოყენებითი ლინგვისტიკა“ მოხსენებების კრებული. ბელორუსია, მინსკი, 2014, გვ. 138-1410 ISBN 978-985-460-669-9 რუსულისაგრანტო პროექტი
ტექსტურ კორპუსებში ომონიმიის ავტომატური მოხსნის მოდელილ. ლორთქიფანიძესტატიასტამბა „დამანი“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტის შრომათა კრებული 18 2014წ. გვ. 187 - 1930 ISSN 0135-0765 ქართულისაგრანტო პროექტი
კომპიუტერული ლინგვისტიკა და ენის მოდელირება ლ. ლორთქიფანიძე, ნ. ჯავაშვილი, გ. ჩიკოიძესტატია"დამანი" / სტუ არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2014 / N 18, გვ. 43-500 ISSN 0135-0765 ქართულისაგრანტო პროექტი
Грузинский корпус метаязыка лингвистики: Проблемы и решенияლ. ლორთქიფანიძეკონფერენციის კრებულიმინსკის სახელმწიფო ლინგვისტური უნივერსიტეტის საერთაშორისო კონფერენციის „კონტრასტული კვლევები და გამოყენებითი ლინგვისტიკა“ მოხსენებების კრებული. ბელორუსია, მინსკი, 2014 0 ISBN 978-985-460-669-9 რუსულისაგრანტო პროექტი
On Multicriteria Algorithm for Specific Problem of Scheduling Theoryლორთქიფანიძე ლ., კუთხაშვილი ქ., ოდიშელიძე ნ.სტატიამეცნიერებების და ტელეკომუნიკაციების ინტერნეტ-ჟურნალი 2014|No.3(43)0 ISSN 1512-1232 ინგლისურისახელმწიფო მიზნობრივი პროგრამა
The Georgian Dialect Corpus: Problems and Prospects.ლორთქიფანიძე ლ., ბერიძე მ., ნადარაია დ.კონფერენციის კრებულიNarr Francke Attempto Verlag GmbH & Co. KG • editorial department Tillmann Bub Dischinger Weg 5, 72070 Tübingen, Jost Gippert / Ralf Gehrke (eds.) (= CLIP, Vol. 5), 2015 pp. 323 - 334 0 ISBN 978-3-8233-6922-6 ინგლისურისაგრანტო პროექტი
Dialect Dictionaries in the Georgian Dialect Corpusლორთქიფანიძე ლ., ბერიძე მ., ნადარაია დ.კონფერენციის კრებულიTheoretical Computer Science and General Issues. 10th International Tbilisi Symposium on Logic, Language, and Computation, TbiLLC 2013, Revised Selected Papers. Publisher: Springer-Verlag Berlin Heidelberg, 2015. pp. 82 - 96Q4 ISBN 978-9941-20-575-0 ინგლისურისაგრანტო პროექტი
WordNet თესაურუსის ტექნოლოგიის სტანდარტებილ. ლორთქიფანიძე, ნ. ჯავაშვილიკონფერენციის კრებულისაგამომცემლო სახლი "ტექნიკური უნივერსიტეტი" / აკადემიკოს ი. ფრანგიშვილის დაბადების 85-ე წლისთავისადმი მიძღვნილი საერთაშორისო სამეცნიერო კონფერენციის «საინფორმაციო და კომპიუტერული ტექნოლოგიები, მოდელირება, მართვა» შრომები 2015 / გვ. 441-444.0 ISBN 978-9941-20-575-0 ქართულისაგრანტო პროექტი
ტექსტური ინფორმაციის დამუშავების ვექტორული სივრცის მოდელის ალგორითმიზაციალ. ლორთქიფანიძეკონფერენციის კრებულისაგამომცემლო სახლი "ტექნიკური უნივერსიტეტი" / აკადემიკოს ი. ფრანგიშვილის დაბადების 85-ე წლისთავისადმი მიძღვნილი საერთაშორისო სამეცნიერო კონფერენციის «საინფორმაციო და კომპიუტერული ტექნოლოგიები, მოდელირება, მართვა» შრომები 2015 / გვ. 537 - 5390 ISBN 978-9941-20-575-0 ქართულისაგრანტო პროექტი
ვექტორული სივრცის მოდელი და ქართულენოვანი ტექსტების დამუშავებალ. ლორთქიფანიძესტატიაგამომცემლობა "უნივერსალი" / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტის შრომათა კრებული 19, 2015. გვ. 105 - 1080 ISSN 0135-0765 ქართულისაგრანტო პროექტი
ლექსიკური ფუნქციების წვლილი განმარტებით-კომბინატორულ ლექსიკონშიჩიკოიძე გ., ამირეზაშვილი ნ., ლორთქიფანიძე ლ., სამსონაძე ლ., ჩუტკერაშვილი ა., ჯავაშვილი ნსტატიაგამომცემლობა "უნივერსალი" / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტის შრომათა კრებული 19, 2015. 98 - 1040 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
WordNet თესაურუსის სტრუქტურის მიხედვით ჰიპონიმური ხის ავტომატური ფორმირების ალგორითმი და პროგრამული რეალიზაციაჩიკოიძე გ., ლორთქიფანიძე ლ.სტატიასტამბა „დამანი“ / სტუ არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2016 / N 20, გვ. 19 - 240 ISSN 0135-0765 ქართულისაგრანტო პროექტი
ლექსიკური ონტოლოგია GeWordNetლორთქიფანიძე ლ., გეგეჩკორი მ.სტატიასტამბა „დამანი“ / სტუ არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2016 / N 20, გვ. გვ. 148 - 1520 ISSN 0135-0765 ქართულისაგრანტო პროექტი
Syntax Annotation of the Georgian Literary CorpusLortkipanidze L., Amirezashvili N., Chutkerashvili A., Javashvili N., Samsonadze L. კონფერენციის კრებულიSpringer/ Logic, Language and Computation, 11th International Tbilisi Symposium, TbiLLC 2015, Revised Selected Papers 2017 / LNCS 101148, pp 89-97Q4 ISSN 0302-9743/ E-ISSN 1611-3349 /ISBN 978-3-662-54331-3 / ISBN 978-3-662-54332-0 (e-book) DOI 10.10007/978-3-662-54332-0ინგლისურისაგრანტო პროექტი
ქართველური ენების მორფოლოგიური ანალიზატორილ. ლორთქიფანიძესტატიაშპს „პოლიგრაფია“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2017 / #21, გვ. 108‑1110 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
ქართული ტექსტ-კორპუსილორთქიფანიძე ლ., კლოიანი ლ. კლოიანი მ.სტატიაშპს „პოლიგრაფია“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2017 / #21, გვ. 112 - 1160 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
Грузино-Английский двунаправленный автоматический перевод деривационных формლორთქიფანიძე ლ., ნ. ჯავაშვილი, ა. ჩუტკერაშვილი, გ. აიდარაშვილისტატიაშპს „პოლიგრაფია“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2018 / #22, გვ. 127 - 1320 ISSN 0135-0765 რუსულისახელმწიფო მიზნობრივი პროგრამა
Morphological Analyzer of Georgian Language’s SubsystemsL. Lortkipanidze, L. Makrakhidzeსტატიაგამომცემლობა შპს „მაცნე პრინტი“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2019 / №23, გვ. 115-1180 ISSN 0135-0765 ინგლისურისახელმწიფო მიზნობრივი პროგრამა
ქართული ენის კომბინატორული ლექსიკონილ. ლორთქიფანიძესტატიაშპს „საჩინო“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2020 / №24 გვ. 98-1040 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
GeWordNet თესაურუსის გამოყენება ქართულენოვან დიალოგურ სისტემაშილ. ლორთქიფანიძესტატიაშპს „საჩინო“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2020 / №24, გვ. 90-970 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა
ლინგვისტური ცოდნის ბაზა ქართული ენისთვისლ. ლორთქიფანიძესტატიაშპს „საჩინო“ / საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტის შრომათა კრებული, 2021 / №25 გვ. 105 -1100 ISSN 0135-0765 ქართულისახელმწიფო მიზნობრივი პროგრამა

არნოლდ ჩიქობავას საკითხავები XXVIთბილისი, საქართველო201528 აპრილი-1 მაისითსუ არნოლდ ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტიქართული დიალექტური კორპუსის მორფოლოგიური ანოტირების კონცეფციისათვისზეპირი

ქართული დიალექტური კორპუსის შექმნის მიმდინარე ეტაპი გულისხმობს მორფოლოგიური ანოტირებისა და გრამატიკული ომონიმიის დაძლევის კონცეპტუალური და პრაქტიკული საკითხების გადაწყვეტას.

ქდკ-ს მორფოლოგიური ანალიზისთვის ჩვენ ვიყენებთ სისტემა `GeoTrans~-ს, რომლის საშუალებითაც მუშავდება კორპუსის საერთო სიტყვანი.

კორპუსის საერთო სიტყვანი მოიცავს ორ სხვადასხვა მონაცემს: ტექსტურსა და სალექსიკონოს. ტექსტური მონაცემი წარმოადგენს ყველა კონტექსტით წარმოდგენილ სიტყვაფორმას, ხოლო სალექსიკონო _ ლექსიკონის მთავარ ფორმას (ლემას), მის ფონეტიკურ, გრამატიკულ და სიტყვაწარმოებით ვარიაციებს. შესაბამისად, მეორე ჯგუფის სიტყვანში წარმოდგენილ მასალას ახლავს გრამატიკული ინფორმაციაც: ლემა მონიშნულია პირველი იერარქიის მარკერით (გრამატიკული ჯგუფის მარკერი), გრამატიკულ და სიტყვაწარმოებით ვარიაციებზე კი მიწერილია როგორც მეტყველების ნაწილის აღმნიშვნელი, ისე პარადიგმის აღმწერი მარკერები, აგრეთვე თანდებულები, ნაწილაკები, სავრცობი ხმოვანი და ზოგჯერ სემანტიკური ჯგუფის ნიშნებიც.

ტექსტური წარმომავლობის სიტყვანისა და სალექსიკონო მონაცემთა ერთობლივად დამუშავების მეთოდი დიალექტურ ფორმათა იდენტიფიკაციის საშუალებას იძლევა.

ქდკ-ს კონცეფციით მორფოლოგიური ანალიზი ავტომატური, ნახევრადავტომატური და ხელით ანოტირების პროცესთა თანმიმდევრულ ერთიანობას გულისხმობს.

მოხსენებაში აღწერილია მორფოლოგიური ანალიზის ტექნოლოგიური სისტემის თავისებურება, წარმოდგენილია პირველადი ავტომატური ანალიზის შედეგები, განხილულია ავტომატურად ანოტირებული არაომონიმური და ომონიმური გრამატიკული მნიშვნელობის მქონე სიტყვათა სიების ტესტირებისა და კორპუსში (კონტექსტებში) მარკერთა საბოლოო მინიჭების პროცესი. უნდა აღინიშნოს, რომ სავარაუდოდ, პირველადი ავტომატური ანალიზის შედეგად მთელი კორპუსული ტექსტური მასალის დაახლოებით 20-30 პროცენტის ანოტირებაა შესაძლებელი. ამჟამად მიმდინარეობს ხუთი დიალექტისთვის ამ ეტაპზე შესრულებული ანალიზის ტესტირება, ომონიმიის ხელით მოხსნა და კონტექსტებში სწორი ანალიზის შედეგების ავტომატურად ასახვა.

ცალკეა განხილული სიხშირული ანალიზის ექსპერიმენტი, რომელიც გულისხმობდა 1000-ზე მეტ კონტექსტში რეალიზებული სიტყვების სიის გამოყოფას და ცალკე დამუშავებას. 

https://ice.ge/of/?page_id=254
არნოლდ ჩიქობავას საკითხავები XXVIთბილისი, საქართველო201528 აპრილი-1 მაისითსუ არნოლდ ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტიქართული ენის გრამატიკული ონლაინ ლექსიკონიზეპირი

ტექნიკის განვითარების დღევანდელ ეტაპზე კომპიუტერის მეშვეობით მრავალი ინტელექტუალური სისტემაა შექმნილი და რეალიზებული. მათ შორის მნიშვნელოვანია კომპიუტერული ენობრივი სისტემები, რომელთა ღრმა თეორიულ საფუძველს წარმოადგენს ენის მოდელირება, ანუ ისეთი ხელოვნური სისტემები, რომლებიც გაიმეორებენ ენობრივი ქცევის ძირითად ასპექტებს: ენის ცოდნას, ცოდნის გამოყენებას გამონათქვამების ანალიზი-სინთეზისთვის და ცოდნის შეძენას. სწორედ ცოდნის შეძენის პრაქტიკულ რეალიზაციაზეა ორიენტირებული წარმოდგენილი სისტემა.

ენის სწავლების კომპიუტერული სისტემის აგების ამოსავალ პუნქტად ლექსიკონის კომპიუტერიზაციაა გამოყენებული. მიუხედავად იმისა, რომ ამოცანის გადასაჭრელად ჩვეულებრივი "წიგნური" ლექსიკონები ძალიან ფასეულია, მათ ორი სერიოზული ნაკლი აქვთ: ინფორმაციის ნაკლებობა და "პასიურობა". აღსანიშნავია, რომ ჩვეულებრივ ლექსიკონში ყოველი სალექსიკონო ერთეული მონიშნულია მისი პარადიგმის მხოლოდ ერთადერთი საწყისი სიტყვაფორმით (ლემით), რომლიდანაც სრული პარადიგმის წარმოდგენა რთულია, განსაკუთრებით ქართული ენისთვის. განვითარებულმა ქვეყნებმა უკვე დიდი ხანია დაიწყეს გრამატიკულ ონლაინ ლექსიკონებზე მუშაობა და ისინი თითქმის ყველა საერთაშორისო ენისთვისაა რეალიზებული (როგორიცაა მაგალითად: რუსული

– http://www.morfologija.ru/словоформа/олень, გერმანული _ http:// www.canoo.net/services/Controller?input=mami&service=inflection). ამ სახის სისტემები ძალიან პოპულარულია საზოგადოების ყველა ფენაში. ინტერნეტსივრცეში, ორენოვანი ლექსიკონების გვერდით, უცხო ენების სწავლებად სისტემებს მნიშვნელოვანი ადგილი უკავია. ენის კომპიუტერული სწავლებადი სისტემებისათვის გრამატიკული ლექსიკონი საბაზისო ელემენტს წარმოადგენს. ამჟამად მის შექმნაზე ბევრი ჯგუფი მუშაობს საქართველოშიც და საზღვარგარეთაც. მაგრამ დღესდღეობით ინტერნეტსივრცეში არ გამოჩენილა არც ერთი პროდუქტი, რომელიც ძირეულად მოიცავდა ქართული ენის ლექსიკას და მის მორფოლოგიურ გენერატორს. ჩვენი პროდუქცია ქართული ენის შესასწავლი პირველი ინტერაქტიური ონლაინ-პროგრამა იქნება, რომელსაც შეეძლება ენის შემსწავლელს მიაწოდოს ფუნდამენტური ცოდნა ენის ლექსიკისა და სიტყვების გრამატიკული ვარიაციების შესახებ.

ამჟამად იქმნება პროგრამული ინსტრუმენტების პაკეტი, რომელიც მომხმარებელს დაეხმარება განახორციელოს ქართული სიტყვაფორმის ანალიზი და სინთეზი ინტერნეტ-სივრცეში როგორც ფორმაწარმოების, ისე სიტყვაწარმოების დონეზე. ონლაინ ლექსიკონი ნებისმიერი სიტყვისთვის უზრუნველყოფს მისი შესაბამისი სალექსიკონო საბაზისო ლემის ძიებას და წარმოადგენს შესაბამისი პარადიგმის ყველა წევრს.

სალექსიკონო ბაზაში უკვე შესულია 100.000 საწყისი სიტყვა და მათი ფორმაწარმოების ყველა წესი. ჩვენ მიერ შექმნილი, და არა ერთ ამოცანაზე აპრობირებული, Gეოთრანს სისტემა საშუალებას მოგვცემს დინამიურად გავზარდოთ ლექსიკონის საწყის სიტყვათა რაოდენობა ნებისმიერ მომენტში, თეორიულად უსასრულოდ, რასაც დიდი ყურადღება ექცევა უცხოური ენების მსგავს სისტემებში.

https://ice.ge/of/?page_id=254
აკადემიკოს ი. ფრანგიშვილის დაბადების 85-ე წლისთავისადმი მიძღვნილი საერთაშორისო სამეცნიერო კონფერენცია «საინფორმაციო და კომპიუტერული ტექნოლოგიები, მოდელირება, მართვა» თბილისი, საქართველო20153-5 ნოემბერისაქართველოს ტექნიკური უნივერსიტეტი; საქართველოს საინჟინრო აკადემია; საერთაშორისო საინჟინრო აკადემიატექსტური ინფორმაციის დამუშავების ვექტორული სივრცის მოდელის ალგორითმიზაციაზეპირი

მოხსენებაში აღწერილია ენის სემანტიკური ვექტორების ფორმირების ძირითადი ეტაპები. განხილულია სიტყვათა სემანტიკური სიახლოვის ამსახველი მრავალგანზომილებიანი ვექტორის ფორმირების მეთოდი. მოყვანილია ვექტორული სივრცის განზოგადოებული მოდელების ზოგადი მიმოხილვა. ჩამოყალიბებულია ტექსტური ინფორმაციის დამუშავების ვექტორული მოდელის ალგორითმიზაციისა და პროგრამული მხარდაჭერის ზოგადი სქემა.

http://ict-mc.gtu.ge/conference.pdf
აკადემიკოს ი. ფრანგიშვილის დაბადების 85-ე წლისთავისადმი მიძღვნილი საერთაშორისო სამეცნიერო კონფერენცია «საინფორმაციო და კომპიუტერული ტექნოლოგიები, მოდელირება, მართვა» თბილისი, საქართველო20153-5 ნოემბერისაქართველოს ტექნიკური უნივერსიტეტი; საქართველოს საინჟინრო აკადემია; საერთაშორისო საინჟინრო აკადემიაWordNet თესაურუსის ტექნოლოგიის სტანდარტებიზეპირი

მოხსენებაში აღწერილია ქართული WordNet თესაურუსის — GeWordNet-ის შემუშავების მეთოდიკა. ახსნილია განსხვავება ტრადიციული ლექსიკონებისა და თესაურუსებისა WordNet თესაურუსთან შედარებით. ჩამოთვლილია ძირითადი პრინციპები, რომლებიც იყო გამოყენებული პრინსტონის WordNet თესაურუსში. განხილულია ენის სისტემის შესახებ ინფორმაციის წარმოსადგენად აუცილებელი ლინგვისტური წყაროების ჯგუფები. დახასიათებულია WordNet-თესაურუსების შემუშავების სტანდარტები: მნიშვნელობათა ანალიზის დეფინიციური, კონტექსტური და სიტყვაწარმოებითი მეთოდები. აღწერილია თესაურუსში გამოყენებული სემანტიკური, პარადიგმატიკული და სინტაგმატიკური კავშირების სახეები. 

http://ict-mc.gtu.ge/conference.pdf
საერთაშორისო სამეცნიერო კონფერენცია თემაზე: „ჰუმანიტარული მეცნიერებები ინფორმაციულ საზოგადოებაში-2“ბათუმი, საქართველო201424-26 ოქტომბერიბათუმის შოთა რუსთაველის სახელმწიფო უნივერსიტეტი ჰუმანიტარულ მეცნიერებათა ფაკულტეტიქართული წინადადების სინტაქსური ანალიზატორიზეპირი

მოხსენებაში განხილულია ქართული ენის ავტომატური სინტაქსური ანალიზატორი. ეს პროგრამა განკუთვნილია ქართულენოვანი ტექსტების ავტომატური სინტაქსური მონიშვნისთვის. მასში რეალიზებულია ქართული ენის მოდელის როგორც სინტაქსური, ისე მორფოლოგიური დონე.

პროგრამას შესავალში მიეწოდება ტექსტური კორპუსი. მომხმარებელი გამოსავალში ღებულობს წინადადებებად დაყოფილ ტექსტს, სადაც თითოეულ სიტყვაფორმას მიწერილი აქვს მისი ამოსავალი ფორმა, გრამატიკული და სინტაქსური მახასიათებლები. სიტყვაფორმის სინტაქსურ მახასიათებელს განაპირობებს ის მიმართებები, რომლებითაც სიტყვაფორმა დაკავშირებულია წინადადების სხვა წევრებთან. სინტაქსური აღწერისას ჩვენ ვიყენებთ უშუალო შემადგენლების ხის და სინტაქსური როლებრივი სტრუქტურების აღწერას.

სინტაქსური გარჩევის ხე წარმოდგენელია სიტყვებს შორის ბინარული ურთიერთორიენტირებული კავშირებით. თითოეულ კავშირში მოცემულია მშობელი სიტყვა და მემკვიდრე სიტყვა. იმისათვის რომ შედეგად მიღებული გრაფი იყოს სინტაქსური გარჩევის ხე, დაცულია სინტაქსური ხის სტრუქტურირების წესები. ამ წესებზე დაყრდნობით და ქართული ენის სინტაქსური კავშირების წესების გათვალისწინებით შევადგინეთ წინადადებაში ყველა შესაძლო სახის კავშირებისა და სტრუქტურებისათვის ურთიერთმიმართების როლებრივი სინტაქსური კავშირების აღწერა ცხრილის სახით. აღნიშნულ ცხრილს შეგვიძლია ვუწოდოთ „ქართული ენის სინტაქსური როლებრივი სტრუქტურების ლექსიკონი“ (აღვნიშნოთ GLSRSV). ლექსიკონის ერთეულში შედის: განხილულ სინტაქსურ კონსტრუქციაში მემკვიდრე სიტყვის სინტაქსური როლის სახელწოდების მარკერი (აბრევიატურა), შესაბამისი მემკვიდრე სიტყვის სინტაქსური როლის მარკერი, შესაბამისი მშობელი სიტყვის სინტაქსური როლის მარკერი, მემკვიდრე სიტყვის მორფოლოგიური მახასიათებლები და სხვ.

ტექსტური კორპუსის სინტაქსური ანოტირების სისტემა შედგება რამდენიმე მოდულისაგან: გრაფომეტრული ანალიზატორი, მორფოლოგიური ანალიზატორი, GLSRSV ლექსიკონი, სავარაუდო სინტაქსური ხეების კონსტრუქტორი. მოხსენებაში განხილული იქნება ამ მოდულების ურთიერთკავშირის ალგორითმზე აგებული პროგრამის მუშაობის პრინციპები და წინადადების ავტომატური გარჩევის მაგალითები.

http://www.nplg.gov.ge/ec/ka/bibl/catalog.html?pft=biblio&from=3591&rnum=10&udc=811.353.1
საერთაშორისო სამეცნიერო კონფერენცია თემაზე: „ჰუმანიტარული მეცნიერებები ინფორმაციულ საზოგადოებაში-2“ბათუმი, საქართველო201424-26 ოქტომბერიბათუმის შოთა რუსთაველის სახელმწიფო უნივერსიტეტი ჰუმანიტარულ მეცნიერებათა ფაკულტეტიქართული წინადადების სინტაქსური ანოტირების სტრუქტურაზეპირი

მოხსენებაში განხილული იქნება ქართული წინადადების სინტაქსური ანოტირების სტრუქტურა ლინგვისტური კონსტრუქციების ბინარული მიმართებების მიხედვით, სადაც თითოეულ სიტყვასთან მითითებულია მისი როლი სიტყვათა კავშირში. წინადადებაში სიტყვათა შორის სინტაქსური კავშირები შესაბამისობაშია სინტაქსური ხის სტრუქტურასთან. წინადადების წევრები (სიტყვები) წარმოდგენილია სახელური (NP) და ზმნური (VP) ფრაზების ელემენტებად. ხის სტრუქტურის ერთიანობის შესანარჩუნებლად შემოდის ნულოვანი კვანძის ცნება (S-წინადადება), რომელიც უპირო ზმნის შემთხვევაში მხოლოდ VP-ზმნური ფრაზის, ხოლო სხვა შემთხვევაში კი NP-ს და VP-ს მშობელია. აღწერილია წინადადების ყველა წევრი (მთავარიც და არამთავარიც). თითოეულ მათგანთან აუცილებლად მითითებულია მისი სინტაქსური როლი: ეს არის სინტაქსური მშობლისა და სინტაქსური მემკვიდრის როლი. მშობლის როლში შეიძლება იყოს როგორც სახელური ფრაზა, ასევე ზმნური ფრაზაც. ეს ფრაზები თავისუფლად შეიძლება მონაწილეობდნენ მემკვიდრის როლშიც. ნაჩვენებია აგრეთვე, რომელ სინტაქსურ კონსტრუქციაში მონაწილეობს წინადადების ესა თუ ის წევრი, რომელსაც, თავის მხრივ, მიწერილი აქვს ყველა შესაძლო როლი სათანადო გრამატიკული მახასიათებლებით. მაგალითად, პირდაპირი დამატება არის VP ზმნური ფრაზის მემკვიდრე (VP=V+N). ის შეიძლება გადმოცემული იყოს სახელით (არსებითი, ზედსართავი, რიცხვითი, ნაცვალსახელი, სახელზმნა) მხოლობითსა და მრავლობით რიცხვში. მისი ბრუნვებია სახელობითი და მიცემითი. დაირთავს თანდებულებს (ვით, თან, ზე, ში) და ნაწილაკებს (-ც, -ღა, -ვე), ასევე სხვათა სიტყვის ნაწილაკებს (ო, მეთქი, თქო). ქართული წინადადების სინტაქსური ანოტირების სტრუქტურაში მნიშვნელოვან როლს ასრულებს მორფოლოგიური ანალიზის შედეგად დაგროვილი ცოდნა, რომელიც ამომწურავ სინტაქსურ ინფორმაციას გვაწვდის. მაგალითად, მოთხრობითი ბრუნვით გადმოცემული სახელი მხოლოდ ქვემდებარე შეიძლება იყოს და ა.შ. ასეთი სტრუქტურის მქონე სინტაქსური ანოტირების სისტემა გრამატიკული მახასიათებლების მეშვეობით ქართული წინადადების სრულყოფილი აღწერის საშუალებას იძლევა. 

http://www.nplg.gov.ge/ec/ka/bibl/search.html?cmd=search&pft=biblio&qs=700%3A1%3A%E1%83%90%E1%83%9B%E1%83%98%E1%83%A0%E1%83%94%E1%83%96%E1%83%90%E1%83%A8%E1%83%95%E1%83%98%E1%83%9A%E1%83%98+%E1%83%90
მეორე საფაკულტეტო სამეცნიერო კონფერენცია ზუსტ და საბუნებისმეტყველო მეცნიერებებშითბილისი, საქართველო201429 იანვარი-3 თებერვალიივანე ჯავახიშვილის სახელობის თბილისის სახელმწიფო უნივერსიტეტიქართული ენის და მისი ქვესისტემების მორფოლოგიური ანალიზატორი როგორც ტექსტური კორპუსის მენეჯერის ძირითადი კომპონენტიზეპირი

ლინგვისტური ტექსტური კორპუსების მთავარი დანიშნულებაა ენის ლექსიკასა და გრამატიკაში სამეცნიერო კვლევების უზრუნველყოფა. კორპუსის ანოტირების შედეგად შესაძლებელია ტექსტის შესახებ ნებისმიერი ტიპის ანალიტიკური ინფორმაციის მიღება. კორპუსის კვლევის ინსტრუმენტის – კორპუსის მენეჯერის კომპილირებისთვის აუცილებელია მასში შესული ტექსტების მორფოლოგიური მონიშვნა (ანოტირება). რაც განსაკუთრებით რთულია ქართული ენის სხვადასხვა ქვესისტემების შემთხვევაში. მოხსენება შეეხება ქართული ენის ქვესისტემების მორფოლოგიური ანალიზატორის შემუშავებას. ნაგულისხმებია, რომ ყოველი ტექსტური ერთეული, რომლის ანალიზი თანამედროვე ქართული ენის მორფოლოგიური ლექსიკონის მიხედვით უარყოფით შედეგს იძლევა, ეკუთვნის ენის ქვესისტემას (დიალექტს). შესაბამისად შემუშავებულია სხვადასხვა დიალექტების მორფოლოგიური ლექსიკონების შევსება/გამდიდრების მეთოდი. ენის გარკვეული ქვესისტემისთვის ლექსიკონის შედგენის პროცედურა ოთხი ეტაპისაგან შედგება: 1. ლემათა (საბაზისო ფორმათა) ლექსიკონის შევსება უკვე არსებული დიალექტური ლექსიკონების (თუკი ასეთი არსებობს) დახმარებით; 2. მორფოლოგიური ანოტირება ლიტერატურულ და დიალექტურ ლექსიკონებზე დაყრდნობით; 3. ყველა ამოუცნობი სიტყვაფორმების კლასტერებად გაერთიანება, რომლებსაც შემდგომ შეეფარდებათ და მიეწერებათ ლექსემის ყალიბიდან გამომდინარე ჰიპოთეზური ინფორმაცია გრამატიკული მეტყველების ნაწილის, ლემის და სხვა მახასიათებლების შესახებ; 4. ყველაზე სწორი ჰიპოთზების შეფასება და მოცემული დიალექტის მორფოლოგიური ანალიზატორის ლექსიკონში ახალი ლემებისა და ფორმაწარმოებითი წესების დამატება

http://conference.ens-2014.tsu.ge/page/program/11
контрастивные исследования и прикладная лингвистикаБелорус. Минск201429-30 ოქტომბერიМинский государственный лингвистический университетРазработка Менеджера Корпуса Грузинских Литературных Текстовზეპირი

В современном языкознании создание лингвистических корпусов осознается как одна из актуальных задач. Проектирование менеджера корпуса Грузинских литературных текстов в первую очередь требует разработки морфологического, синтаксического и семантического анализаторов, а так же создания поисковых программ для работы с текстамы литературных произведений Грузинских авторов.

В рамках проекта «Система полного (морфологического, синтаксического и семантического) аннотирования корпуса Грузинского языка» ведутся работы по созданию Программного Комплекса GeoTrans, поддерживающего системное обеспечениеменеджера корпуса. Программная система предостовляет доступ к единой базе данных, хранящей морфологические, синтаксические и семантические разборы литературных текстов. Общая схема ПК GeoTrans представлена на рис. 1. Он состоит из Базы Данных, системы подготовки данных и системы доступа к БД.Для хранения базы данных используется СУБД MySQL.

С помощью системы подготовки данных ПК GeoTrans ведётся обработка текстов из БД, которая состоит из нескольких стадий:

Добавление нового текста в БД, графометрическое разделение текста и распределение информации по таблицам;

Морфологическое аннотирование текста;

Семантическое аннотирование текста;

Синтаксическое аннотирование текста;

Снятие омонимии.

https://elib.grsu.by/katalog/497344pdf.pdf?d=true
контрастивные исследования и прикладная лингвистикаБелорус. Минск201429-30 ოქტომბერიМинский государственный лингвистический университетГрузинский корпус метаязыка лингвистики: Проблемы и решенияზეპირი

Для обеспечения представительности национального корпуса обязательно требуется отображение в нём определённого сегмента метаязыка различных научных дисциплин. Метаязык науки является значительным фрагментом языка. В статье рассматривается создание грузинского корпуса метаязыка лингвистики на основе электронной библиотеки трудов Виссариона Аркадьевича Джорбенадзе (1942-1992), одного из видных грузинских языковедов 20-го века.

Система будет создана как WEB аппликация, размещена на сервере и доступна для любого авторизованного пользователя с помощью интернета. У нашего многокомпонентного продукта будет как научная, так и учебная функция.

В докладе обсуждаются пути решения поставленных задач, которые представляются в следующем виде:

1. Создание текстового электронного банка

2. Техническое обеспечение

3. Создание рабочего интерфейса корпуса и хрестоматии

https://elib.grsu.by/katalog/497344pdf.pdf?d=true
7th Biennial IVACS ConferenceNewcastle, United Kingdom201419-21 ივნისიNewcastle University Towards Creating a Large Corpus for Georgianზეპირი

There is no large representative corpus for the Georgian language, which is the official language of Georgia and belongs to Kartvelian family. In this joint project between the Tbilisi State University and the University of Leeds, we build KaWac, which designed to be a large and diverse Georgian Corpus from the Internet. The process started with identification of the more popular resources (over 1000 links) and crawling from them using wget, with further processing by webpage cleaning and deduplication based on BootCat tools. We estimate a corpus of 150 million words, 200,000 webpages.

By selecting the diverse initial links, we are trying to ensure that KaWaC covers a wide range of text types, topics and regions. The text types are described using Functional Genre Dimensions, such as Argumentative, Instructional, Legalistic, etc. The corpus will be morphologically annotated and lemmatised using the morphological analyzer GeoTrans developed by Georgian computational linguist at Tbilisi State University.

Challenges in processing: Highly inflected morphological variation, mainly in verbs, adjectives and nouns (e.g. seven cases, three series of verbs divided into ten classes etc.), fragments of texts in other languages (English, Russian), barbarisms in informal language, namely, in texts from personal blogs and forums.

KaWac is developed to be the primary resource for corpus based lexicography for Georgian. It will be also used to promote creation of grammar and other language teaching materials. KaWac will be a great resource for linguists to study the regional varieties, as well as both formal, planned and spontaneous, unplanned language.

https://10times.com/ivacs
პირველი საფაკულტეტო სამეცნიერო კონფერენცია ზუსტ და საბუნებისმეტყველო მეცნიერებებშითბილისი, საქართველო201322-26 იანვარიივანე ჯავახიშვილის სახელობის თბილისის სახელმწიფო უნივერსიტეტისასრული მდგომარეობის ავტომატის კომპაილერი ქართული ენის მორფოლოგიური პროცესორისათვისზეპირი

არ არსებობს ბუნებრივი ენების სრული ლექსიკონები. აგრეთვე შეუძლებელია გადაითვალოს რიცხვების უსასრულო სიმრავლე, ან დასახელდეს ყველა არსებული საკუთარი სახელი და გვარი. დროთა განმავლობაში ყველა ენა იცვლება. იცვლება მისი ლექსიკონიც. ენის ყოველ ქვესისტემას თავისი საკუთარი გამოხატვა აქვს და შეუძლებელია ენის ლექსიკონში შევიდეს მისი ყველა ცალკეული ქვესისტემის სრული ლექსიკა. ქართული ენა 17-მდე დიალექტითაა წარმოდგენილი. მიმდინარეობს მუშაობა ქართული ენის დიალექტების კორპუსზე. კორპუსის სამუშაოთა ტექნოლოგიური ჯაჭვის ერთი ნაწილია მოხსენებაში დასმული საკითხი.

ამჯერად ყურადღება გვინდა გავამახვილოთ ენის დიალექტური მორფოლოგიური პროცესორის კომპილირებაზე.

ჩვენ წარმოგიდგენთ საკმაოდ მარტივ და, ამავე დროს, სრულყოფილ ტექნიკას, რომელიც 

სალიტერატურო ენის უკვე არსებული მორფოლოგიური პროცესორის ადაპტაციით იძლევა დიალექტური ენის პროცესორის კომპილირების საშუალებას. ჩვენი კომპიუტერული პროგრამის ინსტრუმენტების (ხელსაწყოების) დახმარებით ხდება ენის სხვადასხვა დიალექტისთვის სისტემის გაწვრთნა (ტრეინინგი) ცნობილი მორფო-ფონემური წესების გამოყენებით.

ჩვენი მეთოდის შესამოწმებლად შევარჩიეთ ქართული ენის დიალექტების კორპუსი. ქართული სალიტერატურო ენის მორფოლოგიურ მოდელზე დაყრდნობით მოვახდინეთ მორფოლოგიური პროცესორის ადაპტაცია და შემდეგ მოვსინჯეთ დიალექტური კორპუსის ლემატიზაცია და ზედაპირული ანოტირება.

ნაშრომის მე-2-ე პარაგრაფში განხილული იქნება ენის მორფოლოგიური პროცესორის

კომპილირების სისტემა ქართული ენის მაგალითზე, მე-3-ე პარაგრაფში განვიხილავთ ლიტერატურული ენის პროცესორის ადაპტაციის ტექნიკას დიალექტური ქვესისტემებისთვის, მე-4-ე პარაგრაფში აღწერილი იქნება მორფოლოგიური ანალიზატორი და მე-5-ე პარაგრაფში შევეხებით მსგავს სამუშაოებს. 

http://conference.ens-2013.tsu.ge/page/program/11
ქართული ენა და თანამედროვე ტექნოლოგიები IIIთბილისი, საქართველო20134-5 სექტემბერიარნ. ჩიქობავას ენათმეცნიერების ინსტიტუტი, საქართველოს პარლამენტის ეროვნული ბიბლიოთეკაქართული დიალექტური კორპუსის ახალი ლექსიკოგრაფიული რედაქტორიზეპირი

ქართული დიალექტური კორპუსის შექმნის პირველი ეტაპი მოიცავდა ძირითადი ტექსტური მასივის, მეტატექსტური ანოტირების სისტემისა და მასზე დამყარებული საძიებო-საცნობარო სისტემის დამუშავებას. კორპუსის გრამატიკული მონიშვნა და ლექსიკოგრაფიული კომპონენტი მხოლოდ კონცეფციურ დონეზე განიხილებოდა.  

პროექტის მიმდინარე ეტაპი გულისხმობს კორპუსის მორფოლოგიურ მონიშვნასა და ლექსიკოგრაფიული ბაზის ფორმირებას. შესაბამისად, გადამუშავდა კონცეფციის „ლექსიკოგრაფიული“ ნაწილიც. 

ქართული დიალექტური კორპუსის ახალ ლექსიკოგრაფიულ რედაქტორში გათვალისწი-

ნებულია „ქაღალდის ლექსიკონების“ ყველა თავისებურება. ამასთან, ის წარმოადგენს ძველი ლექსიკონების მნიშვნელოვანი დამატებითი ინფორმაციით აღჭურვისა და ახალი ლექსიკონის შექმნის მოქნილ და ეფექტურ საშუალებას.  

ლექსიკონების ახალი რედაქტორით შესაძლებელია: 1. მთავარ სიტყვას მიეწეროს გრამატიკული კლასის მახასიათებელი; 2. აღიწეროს ფონეტიკური ვარიაცია – რაც კორპუსში ვარიანტების ავტომატური ნიშანდების საშუალებას იძლევა; 3. შეიქმნას ინფორმაცია ლექსემის გრამატიკულ (ფორმაწარმოებით) ვარიაციაზე; 4. შეიქმნას ფრაზეოლოგიზმებისა და მყარი სიტყვაშეხამებების ლექსიკონები, რომლებიც კორპუსში ასეთი მასალის ნიშანდებისა და, შესაბამისად, ძიების საშუალებას მოგვცემს. 5. შეიქმნას დიალექტურ ფორმაუცვლელ სიტყვათა და მათი მრავალრიცხოვანი ფონეტიკური ვარიანტების ლექსიკონები, რომლებიც ასევე გამოყენებული იქნება კორპუსში ავტომატური ანოტაციისათვის.

პრინციპულად მიგვაჩნია, რომ გრამატიკული სტანდარტი ქდკ-ში მაქსიმალურად ითვალისწინებდეს ტრადიციულ ლინგვისტიკურ ნააზრევს. შემუშავდა გრამატიკული მახასიათებლების სია და მათი ლათინური ასოებისგან შემდგარი აბრევიატურები, რომლებიც შეესაბამება ყველაზე ცნობილ სტანდარტებს (EAGLES, Leipzig Glossing Rules...), თუმცა მთლიანად მაინც ვერ ეყრდნობა მათ და ორიენტირებულია ქართული ენის თავისებურებისა და ქართული საენათმეცნიერო ტრადიციის სრულყოფილად ასახვაზე. 

ახალი რედაქტორი სალექსიკონო სტატიას მონაცემთა ბაზის სახით ინახავს, რომელიც

დაკავშირებულია ცალკე კონფიგურირებადი სიების სახით არსებულ სხვადასხვა მახასიათებელთა სიმრავლესთან.

მეთაური სიტყვა უკავშირდება ყველა არსებულ დიალექტურ ლექსიკონსა და აგრეთვე ტექსტურ ბაზას. ეს იმას ნიშნავს, რომ ყველა სალექსიკონო სტატია, რომელშიც დასტურდება ეს სიტყვა მთავარ ფორმად და ყველა კონტექსტი, რომელშიც ეს სიტყვა შედის ტექსტურ ბაზაში _ ერთიანი კონკორდანსითაა გამთლიანებული. 

ისევე როგორც მეთაურ სიტყვას, გრამატიკული ვარიაციის ველსაც აქვს კავშირი გრამატიკულ მახასიათებელთა სიებთან.

ამრიგად, ქდკ-ს ახალ ლექსიკოგრაფიულ რედაქტორში შექმნილი სალექსიკონო სტატია

მოიცავს საკმაო ლინგვისტიკურ ინფორმაციას იმისთვის, რომ ის კორპუსში გრამატიკული ნიშანდების ერთ-ერთ საშუალებად იქნეს გამოყენებული.

ქდკ-ს ახალი ლექსიკოგრაფიული კონცეფცია კორპუსზე დაყრდნობილი და კორპუსით „მართული“ ლექსიკონების შექმნის ეფექტური საშუალებაც იქნება. 

https://ice.ge/of/wp-content/uploads/symp_2013_3/masalebi.pdf
ქართული ენა - 21-ე საუკუნის გამოწვევებიქუთაისი, საქართველო20138 ივლისისაქართველოს პარლამენტიკომპიუტერული ლინგვისტიკა მართვის სისტემების ინსტიტუტში (ისტორია და პერსპექტივა)ზეპირი

საქართველოს ტექნიკური უნივერსიტეტის არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტში გასული საუკუნის 50–იანი წლების ბოლოდან დაწყებული დღემდე კომპიუტერული ლინგვისტიკის მიმართულებით მეცნიერული ფუნდამენტური კვლევები მიმდინარეობს.

მოხსენებაში განხილული იყო ენობრივი და სამეტყველო მოდელირების განყოფილების კავშირები და თანამშრომლობა სხვადასხვა ქვეყნების ლინგვისტურ სკოლასთან. ჩამოთვლილი იყო განყოფილებაში შემუშავებული ალგორითმები და მათი პროგრამული უზრუნველყოფა.

წარმოდგენილი იყო განყოფილებაში განხორციელებული ადგილობრივი და საერთაშორისო პროექტები და მათ ფარგლებში რეალიზებული პროგრამული პროდუქტები.

https://parliament.ge/print/news/sakartvelos-parlamentshi-konferentsia-kartuli-ena-21-e-saukunis-gamotsvevebi-mimdinareobs
10th International Tbilisi Symposium on Language, Logic and Computationგუდაური, საქართველო201323-27 სექტემბერიThe Centre for Language, Logic and Speech at the Tbilisi State University, the Georgian Academy of Sciences and Institute for Logic, Language and Computation (ILLC) of the University of Amsterdam.Dialect Dictionaries with the Functions of Representativeness and Morphological Annotation in Georgian Dialect Corpusზეპირი

The Georgian Dialect Corpus (http://mygeorgia.ge/gdc) is being developed as an instrument for the study and documentation of the geo-graphical varieties of Georgian. The strategy for the development of the GDC was based on one hand, on the international corpus experience, and on the traditions of Georgian dialectology and dialectography, on the other hand. In the corpus designing process we did our best to take into account the Georgian national linguistic and cultural space peculiarities.      

In the Georgian Dialect Corpus, dictionaries are applied to accomplish two goals: to achieve representativeness and for morphological annotation. The present paper gives the detailed description how the above mentioned functions are realized.

New texts are continuously being added to the corpus, and at the same time, the morphological annotation of the data is under processing; therefore, so far, the corpus can only be queried according to the following meta-textual (non-linguistic) features:

• Language and dialect

• Place of recording

• The informant’s identity

• Thematic and chronological features of a text

• Text type (narrative, poetry, conversation…)

  The structure of the corpus has been entirely determined by the fact that its technological chain comprises the whole cycle of text processing, beginning from data recording till their integration in the text base of the corpus. Hence, when the planning of field activities outline the occurrence of such components of the corpus as a block of administrative units, information blocks of chronological, thematic, sociologic, etc. features.

In order to facilitate the morphological annotation of the corpus, we presented the dialect dictionaries as “partially grammatical” dictionaries and applied them in the lemmatization and linguistic annotation processes. We decided to use the data of Georgian dialect lexicography in order to increase the lexical database (textual base) of the corpus as well.

https://archive.illc.uva.nl/Tbilisi/Tbilisi2013/
International conference “Historical Corpora 2012”ფრანკფურტი, გერმანია20126-9 დეკემბერიGoethe-Universität Frankfurt am MainThe Georgian Dialect Corpus: Problems and Prospectsზეპირი

The Georgian Dialect Corpus is a part of a comprehensive project Linguistic Portrait of Georgia. The team started working on the project in the late past century and, initially, it was primarily aimed at large-scale computer documenting of Georgia’s linguistic diversity. For the sake of implementing the project we chose the most effective strategy for language documentation – the corpus strategy.

The Georgian Dialect Corpus is created as a significant segment of the Georgian national communicative pattern. It is conceived as a sub-corpus of “a comprehensive Georgian corpus” and is designed for a wide interdisciplinary use.

Presently, two directions are identified in the corpus representation of dialect data: one is aimed at creating a fragmental corpus of a general character, being mostly illustrational and designed for making an impression about a diversity of language subsystems rather than for providing complete linguistic knowledge. Such an approach has been sustained in the Russian National Corpus. There is a completely different approach, in accordance with which dialect data should become a scholarly source of a new type to represent and study not only language but also a linguistic communicative pattern. Corpora of the former type have a function of illustrating and popularizing while others incorporate many other functions, among them,

In the corpus, each dialect (or any other language subsystem) is presented as an individual sub- corpus. This provides an opportunity to discuss linguistic phenomena and/or cultural artifacts both within the integral cultural field and within an individual communicative space or a regional cultural area.

Presently, the corpus incorporates texts from all Georgian dialects (among them, data of the dialects, spread in Iran, Turkey, and Azerbaijan); intensive activities for corpus processing of the Laz text collection are under way.

https://books.google.ge/books/about/Historical_Corpora.html?id=NT4kDwAAQBAJ&redir_esc=y
ბათუმის II საერთაშორისო სიმპოზიუმი ლექსიკოგრაფიაშიბათუმი, საქართველო201218-20 მაისიბათუმის შოთა რუსთაველის სახელმწიფო უნივერსიტეტის განათლებისა და მეცნიერებათა ფაკულტეტი; თსუ არნოლდ ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტი; ივანე ჯავახიშვილის სახელობის თბილისის სახელმწიფო უნივერსიტეტის ლექსიკოგრაფიული ცენტრი; შოთა რუსთაველის ეროვნული სამეცნიერო ფონდილექსიკონი და კორპუსი (ქართული დიალექტური კორპუსის ლექსიკოგრაფიული კომპონენტი)ზეპირი

თანამედროვეობის ყველაზე ავტორიტეტული ლექსიკონები კორპუსებზეა დაყრდნობილი. არსებობს „უკუკავშირიც“ - ლექსიკოგრაფიული და გრამატიკული ნააზრევი კორპუსში აისახება კორპუსის ლინგვისტური ანოტირების სისტემის დამუშავებისას. თანამედროვე კორპუსების შედგენისას ლექსიკოგრაფიული კომპონენტი, როგორც ტექსტური ბაზის ნაწილი, გათვალისწინებული არ არის.

„ქართული დიალექტების კორპუსზე“ მუშაობის დაწყებისთანავე დავგეგმეთ მასში დიალექტური ლექსიკონების, როგორც ტექსტური მონაცემის, ინტეგრაცია. ლექსიკონების რედაქტორი ორი სახის ლექსიკოგრაფიულ ინფორმაციას მოიცავს: არსებულ დიალექტურ ლექსიკონებს და კორპუსის კონკორდანსზე დაყრდნობილ ლექსიკურ მასალას. შესაბამისად, ლექსიკოგრაფიული ელემენტი კორპუსში ორი ფუნქციით წარმოგვიდგება: როგორც პროდუქტი და როგორც ინსტრუმენტი.

ლექსიკონი, როგორც პროდუქტი ტექსტების მასივსა და სხვა ლექსიკონების კრებსით სიტყვიერ მასალაზე დაყრდნობით იქმნება და ახალ ლექსიკოგრაფიულ წყაროს წარმოადგენს, ხოლო მისი შექმნისას ჩატარებული სამუშაოების ნაწილი კორპუსის პირველადი მორფოლოგიური და სემანტიკური ანოტირების ინსტრუმენტად აქცევს მას.

მოხსენებაში წარმოდგენილი იქნება ქართული დიალექტური კორპუსის ახალი დონეები - ლემატიზაციისა და ლექსიკონის რედაქტორები.

ეს ორი დონე პირდაპირ არის დაკავშირებული კორპუსის სამუშაოთა დასკვნით ეტაპთან - მორფოლოგურ ანოტირებასთან.

დიალექტური კორპუსის მორფოლოგიური ანოტირების კონცეფცია ორიენტირებულია ქართული ენის მორფოლოგიური პროცესორის გამოყენებაზე - მისი დამატებითი „მორფოლოგიური ცოდნით“ აღჭურვაზე და შესაბამისად, დიალექტურ სიტყვაფორმათა ნახევრადავტომატურ იდენტიფიკაციის (და ამის საფუძველზე - ლემატიზაციის, ზედაპირული და ღრმა ანოტირების) შესაძლებლობაზე.

კორპუსის ლექსიკოგრაფიული დონისთვის დასაყრდენი ერთეულია მთავარი ფორმა. მისთვის მიწერილი პირველადი გრამატიკული და სემანტიკური ინფორმაცია კი კორპუსის ზედაპირული მორფოლოგიური მარკირების საშუალებას იძლევა.

მოხსენებაში წარმოდგენილი იქნება კორპუსის ლემატიზაციისა და ლექსიკონების რედაქტორები და დეტალურად იქნება აღწერილი მათი ადგილი მორფოლოგური ანოტირების პროცესში.

https://bsu.edu.ge/text_files/ge_file_2290_1.pdf
ბათუმის II საერთაშორისო სიმპოზიუმი ლექსიკოგრაფიაშიბათუმი, საქართველო201218-20 მაისიბათუმის შოთა რუსთაველის სახელმწიფო უნივერსიტეტის განათლებისა და მეცნიერებათა ფაკულტეტი; თსუ არნოლდ ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტი; ივანე ჯავახიშვილის სახელობის თბილისის სახელმწიფო უნივერსიტეტის ლექსიკოგრაფიული ცენტრი; შოთა რუსთაველის ეროვნული სამეცნიერო ფონდიქართული ენის განმარტებით-კომბინატორული ლექსიკონის გენერატორი.ზეპირი

ენის მოდელირება თანამედროვე ლინგვისტიკის ერთ-ერთ მნიშვნელოვან მიმართულებას წარმოადგენს. ენობრივი მოდელებისათვის დამახასიათებელია, ერთი მხრივ, ენობრივი სისტემის დაყოფა რამდენიმე დონედ (მორფოლოგიური, სინტაქსური, სემანტიკური), მეორე მხრივ კი, ამ დონეებს შორის უშუალო კავშირების დამყარება. ქართული ენის მოდელის სხვადასხვა დონეების შეთანხმებული ფუნქციონირებისა და ეფექტური მოქმედებისთვის შესაძლებელია მისი დაფუძნება „განმარტებით-კომბინატორულ ლექსიკონზე“. ქართული ენის კომპიუტერულ განმარტებით-კომბინატორულ ლექსიკონში ლექსემის გარშემო არსებული მთელი ინფორმაცია ზონებადაა დაყოფილი: პირველი - მეთაური სიტყვა, მეორე - სიტყვის განმარტება, მესამე ­ - მორფოლოგიური მოდელი, მეოთხე - სიტყვის სემანტიკურ-სინტაქსური მოდელი; მეხუთე ზონა ეძღვნება სიტყვის ლექსიკური ფუნქციების სიას. შოთა რუსთაველის ეროვნული სამეცნიერო ფონდის მხარდაჭერით შემუშავდა ქართული ენის განმარტებით-კომბინატორული ლექსიკონის გენერატორი. მის შესაქმნელად ვიყენებთ ქართული ენის სინტაქსისა და სემანტიკისადმი თანამედროვე მიდგომას: “ფენოვანი” სინტაქსური სტრუქტურები; ი. მელჩუკის ­- ლექსიკური პარამეტრების თეორია; ი. აპრესიანის - სინონიმური მწკრივების მეთოდი. ქართველოლოგიის თვალსაზრისით ეს არის ქართული ენის აღწერის მეთოდიკის გაფართოება, გაძლიერება და განახლება ახალი საერთაშორისო სტანდარტების შესაბამისად; ზემოხსენებული თანამედროვე თეორიებისთვის - მათი კროსლინგვისტიკური ვარგისიანობის ახალი ტესტირება; კომპიუტერული ლინგვისტიკის კუთხით კი, ეს სამუშაო უზრუნველყოფს მძლავრ საფუძველს ქართული ენის სრულყოფილი ფუნქციონალური მოდელის შესაქმნელად. 

https://bsu.edu.ge/text_files/ge_file_2290_1.pdf
Корпусная лингвистика – 2011სანკტ-პეტერბურგი, რუსეთი201127-29 ივნისიСанкт-Петербургcкий государственный университетПрограммные инструменты для морфологического аннотирования корпусаზეპირი

Морфологическая разметка текста важный аспект при создании корпуса языка. В течение последних лет в Отделе Языковых и Речевых Систем Института Систем Управлений Государственного Технического Университета разрабатывается мульти-язычный морфологический процессор для  последующего его использования в широком классе теоретических и прикладных задач. Значительную ценность процессору придает возможность полуавтоматического морфологического аннотирования корпуса.

На основе алгоритма морфологического анализатора в отделе создан пакет программных инструментов - GeoTools. С их помощью пользователь может в конечном итоге получить глубоко-аннотированный корпус. Кроме того, С помощью программных утилит возможно выравнивание и обработка параллельных текстов. Программный продукт имеет возможность установки интерфейса и обработки данных для трех языков – Грузинский, Русский, Английский. При этом пользователь может задавать: уровень разметки (поверхностный или глубокий); описание морфологических характеристик с соответствующими маркерами. Для тех словоформ, которые не описаны в корпусе, алгоритм генерирует её предположительную модель словоизменения – одну или несколько. Также возможно выявление парадигмы одной лексемы; запись и воспроизведение парадигмы заданной лексемы; запись и поиск всех лемм с идентичной парадигмой. Пользователь сможет произвести сортировку слов и лемм, как в нормальном, так и в инверсионном порядке букв (в словоформе); фильтрацию данных по одинаковым признакам и многое другое. В данный момент происходит внедрение в систему компонентов для синтаксической разметки текста.

До настоящего времени для Грузинского языка аннотированных корпусов текстов не существовало вовсе. Используя систему программных инструментов - GeoTools в нашем отделе, в полуавтоматическом режиме, обрабатываются параллельные тексты произведения современного грузинского писателя – Чабуа Амирэджиби – Дата Туташхиа. Также совместно с Отделом Компьютерной Обработки Лингвистических Данных Института Языковедения им. А. Чикобава мы производим работы для аннотирования диалектного корпуса.

 

В докладе были описаны инструменты GeoTools, этапы и процедуры ввода данных при обработке текстов. Также были изложены основные принципы алгоритмов выравнивания и разметки корпуса.

https://www.ozon.ru/context/detail/id/138917959/
ქართული ენა და თანამედროვე ტექნოლოგიებითბილისი, საქართველო20117-8 ივლისიარნ. ჩიქობავას ენათმეცნიერების ინსტიტუტი, საქართველოს პარლამენტის ეროვნული ბიბლიოთეკადიალექტური ლექსიკონები კორპუსში (ქდკ) და ნახევრადავტომატური ლემატიზაციის საკითხებიზეპირი

ქართული დიალექტების კორპუსი იქმნება რუსთაველის ეროვნული სამეცნიერო ფონდის მხარდაჭერით და გულისხმობს ქართული ენის ქვესისტემების ვრცელი, ლინგვისტური და მეტალინგვისტური ანოტირების აპარატით აღჭურვილი კორპუსის შექმნას . ქდკ-ს კონცეფციაში გამორჩეული ადგილი უჭირავს ერთ მნიშვნელოვან მომენტს, რომელიც ჯერჯერობით არ გვხვდება საერთაშორისო კორპუსულ გამოცდილებაში. ეს არის ლექსიკონების, როგორც ტექსტური კომპონენტის ინტეგრირება კორპუსში.

კორპუსის არქიტექტურაში ტექსტების შეტანის რედაქტორთან ერთად გათვალისწინებულია ლექსიკონების დამატების რედაქტორიც, რომელიც შესაძლებლობას იძლევა აისახოს ქართული დიალექტური ლექსიკონების ყველა აღნიშნული ლექსიკოგრაფიული თავისებურება. 

ლექსიკონის (ან სხვადასხვა სახის სალექსიკონო მასალის) შეტანა კორპუსში მისი

რეპრეზენტატულობის ხარისხის გაზრდის ეფექტური საშუალებაა. განსაკუთრებით ეს ითქმის დიალექტურ კორპუსზე, რადგან დიალექტური ტექსტების თემატური, ჟანრობრივი ან სტილური "დაბალანსება" გაცილებით პრობლემურია, ვიდრე სალიტერატურო ენის ტექსტებისა.

ამჟამად ჩვენ ვამუშავებთ მორფოლოგიური ანოტირების სისტემას კორპუსში (ქდკ). ამ გზაზე პირველი ნაბიჯია ლემატიზაცია. თუკი ამომწურავი მორფოლოგიური აღწერილობის მქონე სალიტერატურო ენათა კორპუსებში ავტომატური ლემატიზაცია იოლად გადასაჭრელი და ტრივიალური პრობლემაა, დიალექტურ კორპუსში, რომელშიც 20-მდე ქვესისტემის ვრცელი ტექსტური კოლექციაა ინტეგრირებული, ეს საკმაოდ რთულ ამოცანას წარმოადგენს. დიალექტურ კორპუსთა უმეტესობაში ეს პროცესი ხელით ხორციელდება. 

ლემატიზაციის პროცესი ჩვენს კორპუსში სალიტერატურო ფორმაზეა ორიენტირებული _ ხდება დიალექტური და სალიტერატურო ლემის "გათანაბრება, გაიგივება". ამ საფეხურამდე, ბუნებრივია, გასავლელია თვით დიალექტური ტექსტის ლემატიზაციის საფეხური. პარალელურად ვაწარმოებთ მეტყველების ნაწილის მიხედვით ანოტირებას. 

ჩვენ გადავწყვიტეთ, გამოვიყენოთ დიალექტური ლექსიკონის "მარცხენა მხარე" ნაწილობრივი ლემატიზაციისა და მეტყველების ნაწილების მიხედვით ანოტირებისათვის.

ვფიქრობთ, ლექსიკონის, როგორც ერთგვარი "ინსტრუმენტის", ლემატიზაციისა და

პირველადი ანოტირების პროცესში ჩართვის იდეა შესაძლოა ეფექტურად იქნეს გამოყენებული იმ ენათა ლინგვისტური კორპუსების შექმნისას, რომელთაც არ აქვთ ამომწურავი მორფოლოგიური აღწერილობა (რომელთა კომპიუტერული დამუშავება ჩამორჩება თანამედროვე მოთხოვნებს).

http://www.ice.ge/symposium/symp2011_2/konferencia-2011.pdf
ქართული ენა და თანამედროვე ტექნოლოგიებითბილისი, საქართველო20117-8 ივლისიარნ. ჩიქობავას ენათმეცნიერების ინსტიტუტი, საქართველოს პარლამენტის ეროვნული ბიბლიოთეკამრავლობითის წარმოების ზოგიერთი საკითხი ქართული ენის მორფოლოგიურ პროცესორში. ზეპირი

განხილულია ქართულ ენაში ზოგიერთი არსებითი სახელის მრავლობით რიცხვში ბრუნების თავისებურებანი. ენობრივი მოვლენები გარკვეულ კანონზომიერებას ექვემდებარება, მაგრამ ზოგადი წესების გვერდით არსებობს გამონაკლისებიც. ყურადღება გამახვილებულია ზოგიერთი სახელის მრავლობითი რიცხვის წარმოების საკითხზე. უკვე დამკვიდრებული წესის თანახმად, მრავლობით ბრუნვაში არ იხმარება გარკვეული ჯგუფის არსებითი სახელები. მათ არათვლადი სახელები ეწოდება. ასეთებია ნივთიერებათა, აბსტრაქტული, კრებითი არსებითი სახელები, მაგრამ   სხვადასხვა სემანტიკური დატვირთვის დროს არაიშვიათია ასეთი სახელების მრავლობითში ხმარება. ზოგი ზედსართავი სახელი გაარსებითებულია მრავლობითი რიცხვის ფორმით (წითლები, მწვანეები, მდიდრები, ღარიბები და ა.შ.). ნაშრომში საილუსტრაციოდ მრავლადაა მოყვანილი მეტყველებაში უკვე მტკიცედ დამკვიდრებული სიტყვათშეთანხმებები, ისეთები, როგორიცაა „ქართული ღვინოები“ „მარილების დაგროვება“, „მინარალური წყლები“ - (ნივთიერებათა სახელები); „ფიქრები“, „მოტივები“, „არჩევნები“ - (აბსტრაქტული სახელები); „გუნდები“, „კრებები“-(კრებითი სახელები): და სხვა.

http://www.ice.ge/symposium/symp2011_2/konferencia-2011.pdf
9th International Tbilisi Symposium on Logic, Language, and Computationქუთაისი, საქართველო201126-30 სექტემბერიThe Centre for Language, Logic and Speech at the Tbilisi State University, the Georgian Academy of Sciences and Institute for Logic, Language and Computation (ILLC) of the University of Amsterdam.The issue of Morphological Annotation of the Georgian Dialect Corpusზეპირი

The Georgian dialect corpus is created at the Arn. Chikobava Institute of Linguistics. Its purpose is to portray the texts’ collection of all Georgian dialects by the corpus technology. At present, there are narrative and lexicographic data of 16 Georgian dialects placed in the corpus. However, potentially the corpus can present the data of other Kartvelian languages as well.

Morphological annotation of the corpus is one of the most important stages of the work, being now carried out by the working group. Here in this article, the five-level process of morphological annotation developing is discussed and the mechanism of forming and expanding the bases containing the relevant linguistic information is presented.

The Georgian Dialect Corpus (GDC _ http://mygeorgia.ge/gdc ) is the first corpus work in Georgian language. Its test version has become available for the internet users in the last two years and it has appropriate professional responses. Several researchers interested in the Georgian dialects and generally in the Georgian language, have been already working on the bases of the GDC.

We have considered preparation and filling up of the texts’ collection and development of the logical architecture of the corpus, as the priority among the several components. It is implemented the unprecedented quantity of work. As a result, the corpus is already providing the rapid search and the effective investigation of the material. Textual and lexical data of all Georgian dialects are integrated into the corpus.

During morphological annotation the marker of the dialect origin is neglected. Glossary is provided in form of the usual alphabetic concordance in which every acknowledged word form differing from the literary word form is assumed as a dialect form.

The primary morphological annotation or the part-of-speech tagging enables us to divide the word forms represented in the dictionary into several parts – grammar groups.

The Georgian dialect corpus is created at the Arn. Chikobava Institute of Linguistics. Its purpose is to portray the texts’ collection of all Georgian dialects by the corpus technology. At present, there are narrative and lexicographic data of 16 Georgian dialects placed in the corpus. However, potentially the corpus can present the data of other Kartvelian languages as well.

Morphological annotation of the corpus is one of the most important stages of the work, being now carried out by the working group. Here in this article, the five-level process of morphological annotation developing is discussed and the mechanism of forming and expanding the bases containing the relevant linguistic information is presented.

The Georgian Dialect Corpus (GDC _ http://mygeorgia.ge/gdc ) is the first corpus work in Georgian language. Its test version has become available for the internet users in the last two years and it has appropriate professional responses. Several researchers interested in the Georgian dialects and generally in the Georgian language, have been already working on the bases of the GDC.

We have considered preparation and filling up of the texts’ collection and development of the logical architecture of the corpus, as the priority among the several components. It is implemented the unprecedented quantity of work. As a result, the corpus is already providing the rapid search and the effective investigation of the material. Textual and lexical data of all Georgian dialects are integrated into the corpus.

During morphological annotation the marker of the dialect origin is neglected. Glossary is provided in form of the usual alphabetic concordance in which every acknowledged word form differing from the literary word form is assumed as a dialect form.

The primary morphological annotation or the part-of-speech tagging enables us to divide the word forms represented in the dictionary into several parts – grammar groups. 

https://archive.illc.uva.nl/Tbilisi/Tbilisi2011/Programme/index.html
6th International Contrastive Linguistics Conference (ICLC6)ბერლინი, გერმანია201030.09-02.10Freie Universitat BerlinInteractive system for compilation of multilingual concordancersზეპირი

Nowadays a bilingual corpus of parallel texts is an important instrument for contrastive analyses and various linguistic studies. The concordance is in the centre of corpus linguistics, because it provides access to many important language patterns in texts. An approach to automate the creation of multilingual (Georgian –English – Russian) concordancers is considered. We use a new system called “GeoTrans” for dictionary management and for aligning bilingual parallel texts. The system applies the rule-based morphological system, so it will be possible to generate necessary rules for words not included in “GeoTrans” database, as well. The applied program interface of “GeoTrans” offers acquisition of morphological description depending to word paradigms.

Here technology of expert systems is used, particularly the frame-based representation of Marvin Minsky. In order to describe a given word form in frames, it is necessary to determine the phenomena, connected to the word, the reasons causing these phenomena and the script of the different phenomena. The system creates the library of frames, in which the cause-effect relations of all morphological phenomena are represented. In our “GeoTrans” system "phenomenon" means determination of those "facts", which are carried out on the basic dictionary units, on the “terminals”. The linguistic concepts of these "facts" mean those morphological ways, i.e. procedure (in the terms of expert system), with which help from the “terminal” we get word form.

The system is implemented as much as possible language independent method. The system has been tested on the poem "The Knight in the Tiger's Skin" by the Georgian poet Shota Rustaveli, with the parallel Georgian –English – Russian texts. For today works for creation and correction of the primary and secondary lexical databases supported by researches of linguists at Georgian Ilia Chavchavadze university are being conducted.

http://listserv.linguistlist.org/pipermail/hpsg-l/2010-March/002229.html
საერთაშორისო სიმპოზიუმი ლექსიკოგრაფიაშიბათუმი, საქართველო201014-16 მაისიშოთა რუსთაველის სახელმწიფო უნივერსიტეტი, არნოლდ ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტიუნივერსალური მორფოლოგიური ანალიზატორი, როგორც ლექსიკოგრაფიული კვლევის ინსტრუმენტიზეპირი

კომპიუტერისა და ინტერნეტის საუკუნეში ტრადიციული ბეჭვდითი ლექსიკონი თანდათან უფერულდება და გზას უთმობს თავის ”გატექნოლოგიურებულ” ვირტუალურ ორეულს. დღეს, თუ გადავხედავთ თანამედროვე ინტერნეტ-ლექსიკონებს, აღმოვაჩენთ რომ ბევრი მათგანი არ შემოიფარგლება სალექსიკონო სტატიის მხოლოდ ტრადიციული წარმოდგენით. უმეტესობა ”შეიარაღებულია” თანდართული მორფოლოგიური, სინტაქსური თუ სემანტიკური ანალიზატორით.

მოხსენებაში წარმოგიდგენთ უნივერსალურ მორფოლოგიურ ანალიზატორს, რომელიც სამი ენის (ქართული, ინგლისური, რუსული) მაგალითზე ნათელს ხდის თუ რამდენად მარტივია ნებისმიერი კომპიუტერული ლექსიკონის მორფოლოგიური ანალიზით უზრუნველჰყოფა და სხვადასხვა ლექსიკოგრაფიულ კვლევაში მისი გამოყენება.

ენის მორფოლოგიის შესახებ ცოდნის წარმოდგენა ტრადიციულად მისი ტერმინალების, ანუ ამოსავალი სიტყვების, პარადიგმული აღწერით შეიძლება ჩამოყალიბდეს. ჩვენ მიერ შემოთავაზებულ GeoTrans სისტემაში გამოყენებულია ექსპერტული სისტემების ტექნოლოგია, კერძოდ კი მარვინ მინსკის ფრეიმების წარმოდგენა. იმისათვის რომ მოხდეს გარკვეული სიტყვაფორმის ფრეიმისეული აღწერა, საჭიროა დავადგინოთ მასთან დაკავშირებული მოვლენები, ამ მოვლენების გამომწვევი მიზეზები და სხვადასხვა მოვლენათა სცენარები. ჩვენ მივმართავთ სიტყვის პარადიგმას და ვადგენთ მიზეზშედეგობრივ კავშირებს მოქმედებებსა და შედეგებს შორის. სისტემა ქმნის ფრეიმების ბიბლიოთეკას, რომელშიც აღნუსხულია ყველა მორფოლოგიური მოვლენის მიზეზშედეგობრივი მიმართებები.

ექსპერტულ სისტემაში “მოვლენის გაგება” ნიშნავს იმ „ფაქტების” დადგენას, რომელიც განხორციელებულია ტერმინალებზე - ამოსავალ სალექსიკონო ერთეულზე. “ფაქტები” კი ლინგვისტური გაგებით, ის მორფოლოგიური ხერხებია, ანუ ექსპერტული სისტემების ტერმინებში – პროცედურები, რომლის ტერმინალზე განხორციელების შედეგადაც მიიღება სიტყვაფორმა.

https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwihwJK7lIf3AhWhSPEDHVejDncQFnoECAMQAQ&url=https%3A%2F%2Fice.ge%2Fnew%2Fbatumi%2Fprograma_geo.pdf&usg=AOvVaw2iBgWZqP4O6XNEdU5Tsx8u
ქართული ენა და თანამედროვე ტექნოლოგიებითბილისი, საქართველო200920-21 ოქტომბერისაქართველოს განათლებისა და მეცნიერების სამინისტროს არნ. ჩიქობავას ენათმეცნიერების ინსტიტუტიქართული ენის კომპიუტერული სუფლიორიზეპირი

წესები წარმოადგენს პროდუქციათა ერთობლიობას. მასში გაერთიანებულია სათანადოდ კვალიფიცირებული ცალსახა თუ არაცალსახა მარკერები, მარკერთა შეხვედრის პირობები. ნაჩვენებია, რა მორფოლოგიურ კატეგორიებს განარჩევს ესა თუ ის ზმნა, სახელი, მოცემულია კატეგორიათა ინტერპრეტაცია (რიგ შემთხვევაში ტრადიციულიდან განსხვავებული), ახსნილია მარკერთა სინონიმია/ ომონიმია, გამოთქმულია გარკვეული მოსაზრებები ამ მოვლენათა თაობაზე. კერძოდ, მიგვაჩნია რომ სინონიმია მორფოლოგიურ დონეზე (სინტაქსური დონისაგან განსხვავებით) შეზღუდულია, განპირობებულია მორფოლოგიური გარემოცვით (შდრ.: ხატავ-ს და ხატავდ-ა). რაც შეეხება ომონიმურ მოვლენას, ასეთად (ომონიმიად) ჩათვლილია მხოლოდ ისეთი შემთხვევები, რომლებიც არამორფოლოგიურ დონეზე აიხსნებიან. მაგალითად, ამგვარია “დაწერა” ფორმა (დაწერ-ა _ საწყისი, დაწერ-ა – პირიანი ფორმა), რომელიც სინტაქსურ დონეზე სწორ კვალიფიკაციას მიიღებს. რაც შეეხება ი-წერება, ი-წერს, მ-ი-წერს ფორმებში ი-ს შეფასებას, იგი მიგვაჩნია არა ომონიმურ მარკერად, არამედ ენაში უთუოდ არსებულ და მოქმედი ეკონომიურობის კანონის, ენის ყაირათიანობის ნიმუშად – ენა სრულიად უმტკივნეულოდ იყენებს ერთსა და იმავე ენობრივ მასალას სხვადასხვა ინფორმაციის გადმოსაცემად – პრობლემას აგვარებს სიტყვაფორმის სტრუქტურა.

https://www.ice.ge/new/pages/news/konferencia.pdf
ქართული ენა და თანამედროვე ტექნოლოგიებითბილისი, საქართველო200920-21 ოქტომბერისაქართველოს განათლებისა და მეცნიერების სამინისტროს არნ. ჩიქობავას ენათმეცნიერების ინსტიტუტიქართული ენის რიცხვითი სახელების კომპიუტერული რეალიზაციაზეპირი

წარმოგიდგენთ ქართული რიცხვითი სახელების კომპიუტერულ რეალიზაციას ენის მოდელირების ექსპერტულ სისტემაში – MESLM.

MESLM სისტემაში მორფოლოგიური ლექსიკონი დაიყო კანონიკურ და წესების ლექსიკონად. კანონიკური ლექსიკონი (CaDic) არის მონაცემთა ბაზის ფაილი, რომელშიც შედის სიტყვის კანონიკურ ფორმასა და მისი მორფოტაქტიკური წესების მარკერებს შორის შესატყვისობები. მორფოტაქტიკური წესები აღწერილია ორ სალექსიკონო მონაცემთა ბაზაში: ფორმაწარმოების (InRuLex) და სიტყვაწარმოების (DeRuLex). სახელების ბრუნება, ზმნების უღლება, პროდუქტიული სიტყვაწარმოება და შერწყმა (სახელების გაერთიანება) უზრუნველყოფილია დამატებითი ლექსიკონებით. ესენია: ფორმაწარმოების (InFeLex) და სიტყვაწარმოების (DeFeLex) გრამატიკული მახასიათებლების ლექსიკონები.

სისტემა რიცხვითი სახელების ფლექსიას ასახავს მარკერებით, რომლებიც აღწერენ რიცხვითი სახელის სახეს და მორფოლოგიურ მახასიათებლებს. იგი ორმიმართულებიანია და შეიძლება გამოყენებული იყოს რომელიმე ბრუნვაში მდგარი რთული რიცხვითი სახელის ანალიზისათვის, ან მარკერებით და ციფრებით ასახული შესაბამისი გამოსახულების გენერირებისათვის.

ქართულ ენაში ციფრების ასახვა რიცხვით სახელებში გაცილებით უფრო რთულია, ვიდრე შესაბამისი გარდაქმნები სხვა ენებში, მაგ., ინგლისურში, ვინაიდან ქართულში რთული რიცხვითი სახელები იბრუნვის, რიცხვების გამოხატვა კი ხდება ოცობით-ათობითი შერეული სისტემით.

ქართულში, ისევე როგორც ბევრ ენაში, რიცხვითი სახელები იყოფა რაოდენობით, რიგობით და წილობით ჯგუფებად. ყველა რაოდენობითი რიცხვითი სახე-ლი ერთიდან ათის ჩათვლით მარტივი რიცხვითი სახელია: 0-ნული, 1-ერთი, 2-ორი, 3-სამი, 4-ოთხი, 5-ხუთი, 6-ექვსი, 7-შვიდი, 8-რვა, 9-ცხრა, 10-ათი. აგრეთვე მარტივია რიცხვითი სახელები: 20-ოცი, 100-ასი, 1,000,000-მილიონი, 1,000,000,000-მილიარდი, 1,000,000,000,000-ტრილიონი.

ქართულში რიცხვები 100-ის შემდეგ გამოიხატება ოცობით-ათობითში, მაგრამ უმრავლეს ენებში რიცხვითი სახელების გამოხატვის ინტერპრეტაცია სქემატურად მსგავსია და აისახება შემდეგი ფორმულით: V = [M • F + R]. რიცხვითი სახელის რიცხვითი სიდიდე V (Value) მიიღება სამრავლის M (Multiplicand) მამრავლზე F (Factor) გადამრავლებით და R (Remainder) ნაშთის მიმატებით. ამ რეკურსიულ სტრუქტურაში M და R კომპონენტები თვითონვე შეიძლება იყვნენ რთული რიცხვითი სახელები, რომლებიც ექვემდებარებიან გარკვეულ შეზღუდვებს.

წილობითობა მარკირებულია სუფიქსით, რომელიც წინ უსწრებს რიცხვისა და ბრუნვის მარკერებს. რიგობითი და წილობითი რიცხვითი სახელები ყოველთვის იწერება როგორც ერთი სიტყვა.

https://www.ice.ge/new/pages/news/konferencia.pdf
8th International Symposium on Language, Logic and computationთბილისი, საქართველო20091-5 ოქტომბერიThe Centre for Language, Logic and Speech at the Tbilisi State University, the Georgian Academy of Sciences and Institute for Logic, Language and Computation (ILLC) of the University of Amsterdam.Modeling of derivation in the Multilingual Expert Systemზეპირი

Our aim is to create a system for automatic language generation. We present the work aimed at building the Multilingual Expert System of Language Modeling (MESLM).

The first step for MESLM system is accumulation of knowledge about the morphological level of the language. On the other hand, for acquisition of knowledge about morphology of a language we use Artificial Intelligence (AI) techniques (such are, for example knowledge-based expert systems). Such system solves problems of knowledge acquisition with the help of linguist experts.

MESLM system can be considered as a tool imitating human thoughts and creating morphological rules for any language processor. Although some AI techniques have been applied for processing natural languages, it is very difficult to use them, especially, with inflectional languages because special skills are required for application of expert's knowledge. The expert uses MESLM to derive knowledge from source language without teaching special high-level languages or some formal operators. After the pattern recognition the text will be segmented into words and non-lexical material and the lemma will be determined. The form of each word will be converted as a morphological rule and listed into two lexicons as an entry head (Initial words) and as a rule. 

Morphological representation in the MESLM system can be compared with well-known Finite-State Morphology [2], or Net representation of morphologic processor [1], or other models which use the net representation for generation. In contrasts to them, we have so-called “Morphological Functions” (MF). Briefly, MF operators reflect morphological process just needed for to build a desirable word-form with corresponding grammatical characteristics. A conceptual framework of representation in the MESLM system for derivation is not much distinct from inflexion. In both variants, the interface remains the same and the user plays the role of a linguist from which only natural analytical ability is required.

https://archive.illc.uva.nl/Tbilisi/Tbilisi2007/index.php%3Fpage=15.html
7th International Symposium on Language, Logic and computationთბილისი, საქართველო20071-5 ოქტომბერიThe Centre for Language, Logic and Speech at the Tbilisi State University, the Georgian Academy of Sciences and Institute for Logic, Language and Computation (ILLC) of the University of Amsterdam.Three Aspects of Language Modellingზეპირი

From some point of view, Language Modeling (LM) can be considered as a some axis of the linguistics. Just in the frames of it, the different basic components of language should be unified and as a result brought into accord and conformity. Just one more, dimension of such relations is here under consideration: that is, we shall here touch the question of a triple relation between aspects of language knowledge, its use and its acquisition. This direction of investigations newly began and as far only some sketches of the language knowledge/use relation are ready for demonstration, though even they are not sufficiently tested and don’t guarantee complete correctness of their functioning.

According to the wide accepted opinion that language knowledge can be represented by a generative grammar the productive components (synthesis and analysis) are based on the morphologic generator Bf→P, which transforms each Basic (dictionary) form into all members of the Paradigm corresponding to the input Bf. Just this component of the scheme is the most accomplished: its object is Russian morphology and it is based on A.A. Zaliznyak dictionary.  As to synthesis it obviously does not create any serious problems in the context of the Bf→P system if we suppose that its input is just Bf’ which is at the same time the generator’s input also; and the choice of the required form is immediately defined by the grammatical part of the input. Essential heavier version of this problem characterizes the analytic component of system. In this case a direct mode of comparison in course of dictionary search is changed by the attempts to find some alikeness between the input Wf and Bf’. Such more specific process exacts some more effective means for reduction of the search area in dictionary and in the generated paradigm both. 

https://archive.illc.uva.nl/Tbilisi/Tbilisi2007/index.php%3Fpage=15.html
ბუნებრივ ენათა დამუშავებათბილისი, საქართველო200520-22 ოქტომბერიარნოლდ ჩიქობავას ენათმეცნიერების ინსტიტუტი, საქართველოს განათლებისა და მეცნიერების სამინისტრორუსული ენის მორფოლოგიური წარმოდგენის უნიფიკაციის ავტომატური სისტემაზეპირი

დღესდღეობით რუსული ნაბეჭდი ტექსტების კომპიუტერული დამუშავების სფეროში მრავალი ახალი სამომხმარებლო პროგრამა იქმნება. მათი განხორციელების საქმეში რუსული მორფოლოგიის მოდულს ძირითადი ადგილი უკავია. ტრადიციულად ავტომატური მორფოლოგიური პროცესორის შექმნა, იქნება ეს ანალიზატორი, სინთეზატორი, ტეგერი თუ მთარგმნელი, კომპიუტერული ლინგვისტებისაგან ძირითადად სამი ამოცანის გადაწყვეტას მოითხოვს: პირველია საკვლევი ენის მორფოლოგიის მოდელის ფორმალიზაცია, რაც გულისხმობს ამ ენაში არსებული თითოეული ამოსავალი სიტყვის მიმოხრის ალგორითმიზაციას თავისი საკუთარი სქემის მიხედვით; მეორე – ყველა იმ სიტყვათა ჯგუფების გამოვლენა, რომლებსაც ერთნაირი პარადიგმა აქვთ და მესამე – ისეთი ლექსიკონის შედგენა, რომელშიც თითოეულ ამოსავალ სიტყვას ექნება საკუთარი პარადიგმის ან პარადიგმების (ომონიმების შემთხვევაში) აღმნიშვნელი მახასიათებელი. როგორც ცნობილია,       თანამედროვე რუსულ გრამატიკაში ჯერჯერობით ყველაზე უფრო სრულყოფილად სიტყვის ფლექსიას ასახავს А. А. Зализняк 1977. მასში თითოეულ სიტყვას გააჩნია საკუთარი გრამატიკული ნიშნები და ინდექსები, რომლებიც ცალსახად მიუთითებენ პუნქტებს იმ გრამატიკული ცნობარიდან, სადაც მოცემულია კონკრეტული ამოსავალი სიტყვების კლასებისათვის დამახასიათებელი ბრუნვისა თუ უღლების სქემები. გარდა ამისა, ლექსიკონში გამოყენებულია სიტყვათა მიმდევრობის ინვერსიული რიგი. რის შედეგადაც ერთნაირი პარადიგმების მქონე სიტყვები ერთმანეთის მახლობლობაშია მოქცეული და ამით გაადვილებულია მათი გაერთიანება ერთნაირი მიმოხრის მქონე სიტყვათა მასივებში.

ჩვენს მიერ შემოთავაზებული გამოყენებითი პროგრამის ძირითად მიღწევად შეიძლება ჩაითვალოს А. А. Зализняк 1977 სალექსიკონო სტატიებში შესული ყველა პირობითი ნიშნის სახეთა ამოცნობა და შემდგომ, მათზე დაყრდნობით, ისეთი კომპიუტერული სისტემის შემუშავება, რომელშიც შესაძლებელია ერთნაირი მიმოხრის მქონე სიტყვათა მასივების ავტომატური მოპოვება. სისტემის შემუშავების დროს სალექსიკონო სტატიებში გამოყენებული ჩანანიშნებისა და ინდექსების გარჩევის პროცესის ფორმალიზება გართულებული იყო არა მარტო ამოსავალი სიტყვების სხვადასხვა მახასიათებლების აღმნიშვნელების სიმრავლით (24 სახე-ობიექტი), არამედ მათი მნიშვნელობების არაცალსახობით, რომელსაც განაპირობებს მახასიათებლების რიგი.

ლინგვისტ-მომხმარებელს საშუალება აქვს ნებისმიერი მეტყველების ნაწილის და ძირითადი, თუ დამხმარე მორფოლოგიური მახასიათებლის (ან მახასიათებლების) მიხედვით მოახდინოს ლექსიკონის წინასწარი კლასიფიკაცია, ხოლო გამოვლენილი კლასების მიხედვით ჩაატაროს სასურველი კლასის სალექსიკონო ერთეულების დაჯგუფება მათ ჩანაწერში მითითებული მახასიათებლების ყველა შესაძლო კომბინაციის მიხედვით.

http://www.ice.ge/conferenciebi/Bunebriv%20enata%20damushaveba.html
6th International Symposium on Language, Logic and computationბათუმი, საქართველო200512-16 სექტემბერიThe Centre for Language, Logic and Speech at the Tbilisi State University, the Georgian Academy of Sciences and Institute for Logic, Language and Computation (ILLC) of the University of Amsterdam.Classification of the Russian Morphologyზეპირი

For the operation of an automatic paradigm generation system within the framework of a common Swedish-Georgian project (KTH, Stockholm - ISU AN Georgia, Tbilisi), a dictionary of word forms with morphological information about each word and the selection of lists of words with the same characteristics is required. The dictionary consists of approximately 100,000 words. Moreover, each word has grammatical markers and indices that indicate its own scheme of declension or conjugation of the word. In addition, the dictionary uses the so-called inverse word order, as a result of which, basically, words with the same information about the declension (or conjugation) are located next to each other, which contributes to grouping them into groups with identical characteristics. This type of method is widely used by linguists in the creation of automatic processors.

In preparing our dictionary for work, a number of problems were solved. The system formalizes the method of recognition of morphological characteristics based on the designations adopted in the entries of the dictionary of Russian lexical units. The dictionary highlights 24 main features. For each dictionary unit, a row is recorded in the "RusLex" database, the structure of which makes it possible to further process the dictionary.

An application program ZalDict has been created, which works under Windows'95 and higher. The system is designed for research purposes, in particular, many hours of searching and selecting words for one or more features using the appropriate modes takes only a few seconds.

The main advantage of the system is that with the help of our program it is possible to classify a dictionary according to any combination of given features. Thus, it is possible to search for such classes of words that have the same declension (conjugation) scheme.

ბუნებრივ ენათა დამუშავებათბილისი, საქართველო200421-23 ივნისისაქართველოს პრეზიდენტთან არსებული სახელმწიფო ენის მუდმივი სახელმწიფო კომისია ; საქართველოს მეცნიერებათა აკადემია არნოლდ ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტიფორმა↔კომპოზიტი↔კონსტრუქცია↔იდიომა. (ავტომატური თარგმნის საკითხისათვის)ზეპირი

ანალიზის, სინთეზის და ტეგირებისა სისტემებში გამოყენებულ მორფოლოგიურ პროცესორებში ვიყენებთ ე.წ. „მორფოლოგიური ფუნქციების ჩაწერის და აღწარმოების“ - MorZaVo მეთოდს. ამ მეთოდზე დაყრდნობით შეიქმნა „ქართულ-რუსულ-ინგლისური სიტყვა-სიტყვითი ინტერპრეტატორი“. მეთოდის ძირითადი ღირსება მისი უნივერსალურობაა. რაც გულისხმობს, რომ ამა თუ იმ ენის პროცესორის და მისი მორფოლოგიური მოდელის შექმნაში მონაწილეობას იღებს თვით ლინგვისტი-მომხმარებელი. MorZaVo სისტემაში ალგორითმიზირებულია არა ცალკეული მორფოლოგიური კატეგორიების და მათი შესაბამისი მორფოლოგიური ნიშნების პროცესირება, არამედ თვითონ ამ კატეგორიების, მათ გამოსახატავად გამოყენებული მორფოლოგიური ხერხებისა და ნიშნების ამოცნობა-დამახსოვრება-აღწარმოება.

MorZaVo მოდელის საშუალებით სხვადასხვა ენების ლექსიკონების შევსების გაადვილებამ გადაგვაწყვეტინა შევჭიდებოდით ავტომატური თარგმანის ურთულეს ამოცანასაც. ჯერ-ჯერობით განხორციელებულია მხოლოდ მორფოლოგიური დონე. ტექსტების დამუშავება და მათი თითოეული ელემენტისთვის შესაბამისი ინფორმაციის მოძიება სისტემის ანალიზის, სინთეზისა და ტეგირების ბლოკების გამოყენებით ხდება, რაც შემდგომში საშუალებას მოგვცემს მოვაგვაროთ ავტომატური თარგმნის სინტაქსისა და სემანტიკის საკითხებიც.

MorZaVo მოდელზე დაყრდნობით შექმნილია „ქართულ-რუსულ-ინგლისური სიტყვა-სიტყვითი ინტერპრეტატორის“ სისტემა, რომელიც ინტეგრირებულია GeoTrans გამოყენებით-სამომხმარებლო პროგრამაში. სისტემის მუშაობის ძირითადი დანიშნულებაა სათარგმნი ენის ნებისმიერ სიტყვაფორმას მოუძებნოს თარგმანის ენაში ყველა შესატყვისობათა ამოსავალი ფორმები.

MorZaVo სისტემის ადაპტაციის დროს შეიქმნა სირთულეები სათარგმნი და თარგმანის ენების ელემენტების შესატყვისობების დადგენისას. მოხდა ისე, რომ დაირღვა სალექსიკონო ერთეულების შესაბამისობის ცალსახობა, ანუ კერძოდ, ერთი ენის ერთ ამოსავალ ფორმას არ მიესადაგა მეორე ენის ერთი ამოსავალი ფორმა. ერთი ენის კომპოზიტის შესატყვისი მეორე ენაში ვერ გუობს ხოლმე მეორე ენაში შესაბამის მნიშვნელობათა მქონე სიტყვაფორმების შერწყმას და მხოლოდ იდიომური შეთავსებით გამოიხატება. ასე მაგალითად ინგლისურში over თავსართით დაწყებული კომპოზიტის overboard, overnight, overlap, overcast overawe და სხვ.) ქართული და რუსული შესატყვისობები უმეტესად რამოდენიმე სიტყვიანი ფრაზით გამოიხატება. ასეთივე სურათია მრავალი ქართული რთული სიტყვის შემთხვევაში (მაგ.: ქვედაპირი, კარღია, კარდაკარ, კარჩაკეტილი, მამიდა, მამინაცვალი და სხვ.). საჭირო გახდა შესაბამისობათა ცხრილებში კომპოზიტების, კონსტრუქციების, იდიომების აღნიშვნისა და „ჩაწერის“ ალგორითმიზაცია. REVFORM (ფორმის დამდგენი) ოპერატორი სისტემისთვის მიწოდებული შესატყვისობების ცხრილების „ჩაწერის“ დროს ადგენს ყველა შესაძლო ვარიანტს და შესაბამისი ნიშნებით ინახავს „მრავალენოვანი ლექსიკონის შესატყვისობათა“ ბაზაში, ხოლო შემდეგ სისტემის „ინტერპრეტატორის“ ბლოკის მუშაობის დროს უკვე CREFORM (ფორმის შემდგენი) ოპერატორი ქმნის შესაბამის კომპოზიტს, კონსტრუქციას თუ იდიომას.

http://www.ice.ge/conferenciebi/Bunebriv%20enata%20damushaveba.html
Проблемы Управления и Энергетики, PCPE-2004თბილისი, საქართველო200427.09. – 1.10საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტიქართულ-რუსულ-ინგლისური სიტყვა-სიტყვითი ინტერპრეტატორი (ავტომატური თარგმნის საკითხისათვის)ზეპირი

BfP это морфологическая порождающая система (Basic form →Paradigm) которая генерирует для каждой входной базисной формы (Bf) ее полную парадигму (P). В настоящее время эта система тестирована на радигмах русского глагола. Однако, уже в этом неполном виде она оказалась пригодной для создания морфологического компонента системы поддержки печатания русского текста (PSS - Printing support System). В соответствии с органичениям, накладываемыми этой полледной системой, на екране демонстрируются последовательным образом подмножества членов парадигмы, число которых не должно превышать 9 единиц. Высказана гипотеза, что морфологический компонент естественно-языковой системы может функционировать аналогичным образом.

https://gtu.ge/msi/Files/Pdf/Publications/sarchevi_2004.pdf
5th Tbilisi Symposium on Language, Logic and Computationთბილისი, საქართველო20036-10 ოქტომბერიThe Centre for Language, Logic and Speech at the Tbilisi State University, the Georgian Academy of Sciences and Institute for Logic, Language and Computation (ILLC) of the University of Amsterdam.Record and reproduction of morphological functionsზეპირი

It's obvious that today's linguistic researches require computer record and processing of the object of investigation. The main purpose of our system is a processing of text with the final, though not the single, aim of construction of automatic multilingual dictionaries can be used for:

§ Alignment of text;

§ Record indexing;

§ Division of text into sentences;

§ Calculation of word frequencies;

§ Simulations processing of practically unlimited amount of parallel texts;

§ Addition of new languages;

§ Creative of new and enhancing  of the already present in the system dictionaries;

§ Word analysis;

§ Finding and saving of synonymous equivalents;

§ Comparison of different uses of words.


The core of this approach is the so-called method of "record and reproduction" of morphologic characteristics and rules of word inflections' generation. It means that during the analysis is carried out "reproduction" and adjustment of the already recorded rules to the input word form, comparison of so received basic form with the dictionary list and, if the process does fail, demonstration of the result on the screen. Each time, when the system cannot find in the dictionary same basic form corresponding to the current input word, it proposes to the user to print characteristics of this lexical unit or to define its whole paradigm. After that the system creates automatically, by the means of the "record" – operator, corresponding rule, compares it with already present ones, and, if some identical one is not found, includes in the list of rules a new one.

System is implemented by the means of net representation of morphologic processors. System can supply records of conditions of both right-hand and left-hand labels of morphologic net and thus further automation of this quite work-consuming part of implementation of morphologic processors.


https://archive.illc.uva.nl/Tbilisi/Tbilisi2003/

Web of Science: 1
Scopus: 1,5
Google Scholar: 2

შვედეთი-5 მარტი - 15 მაისი. 2006 წელი Institution for Speech, Music and Hearing, Kungliga Tekniska Högskolan (KTH)კერძო კომპანია Honeysoft
შვედეთი-8 აგვისტო- 7 სექტემბერი. 2008 წელი Institution for Speech, Music and Hearing, Kungliga Tekniska Högskolan (KTH)კერძო კომპანია Honeysoft

დისერტაციის რეცენზირება


სამაგისტრო ნაშრომების ხელმძღვანელობა


სადოქტორო თემის ხელმძღვანელობა/თანახელმძღვანელობა


უცხოურ ენებზე მონოგრაფიის სამეცნიერო რედაქტირება


ქართულ ენაზე მონოგრაფიის სამეცნიერო რედაქტირება


რეფერირებული ან პროფესიული ჟურნალის/ კრებულის მთავარი რედაქტორობა


სამეცნიერო პროფესიული ჟურნალის/ კრებულის რეცენზენტობა


რეფერირებული სამეცნიერო ან პროფესიული ჟურნალის/ კრებულის სარედაქციო კოლეგიის წევრობა


საერთაშორისო ორგანიზაციის მიერ მხარდაჭერილ პროექტში/გრანტში მონაწილეობა


Algorithmic Description of Russian word morphologyThe Royal Swedish Academy of Sciences შვედეთი 2005-2006ძირითადი შემსრულებელი
ქართული ენის ეროვნული კორპუსი - ტექნოლოგიური ჩარჩოს შექმნაVolkswagen Stiftung, AZ 86154 გერმანიზ 2012-2015ძირითადი შემსრულებელი

სახელმწიფო ბიუჯეტის სახსრებით მხარდაჭერილ პროექტში/ გრანტში მონაწილეობა


ინგლისურ-ქართული კომპიუტერული ლექსიკონი თანდართული მორფოლოგიური პროცესორებით საქართველოს მეცნიერებათა აკადემიის გრანტი 2002-2003ძირითადი შემსრულებელი
წარმომშობი გრამატიკის მორფოლოგიური დონის ქსელური წარმოდგენა და კომპიუტერული რეალიზაციასაქართველოს მეცნიერებათა აკადემიის გრანტი 2004-2005ძირითადი შემსრულებელი
ქართული ტექსტის ავტომატური სინტაქსური ანალიზის შექმნა საქართველოს მეცნიერებათა აკადემიის არჩილ ელიაშვილის სახელობის მართვის სისტემების ინსტიტუტი 2004-2006ძირითადი შემსრულებელი
ინგლისურ-ქართული თარგმნის ავტომატური სისტემა სსიპ არჩილ ელიაშვილის მართვის სისტემების ინსტიტუტი 2007-2009ძირითადი შემსრულებელი
ავტომატური განმარტებით-კომბინატორული ლექსიკონი როგორც ქართული ენის მოდელირების საფუძველიშოთა რუსთაველის ეროვნული სამეცნიერო ფონდის გრანტი №A 36-09 2009-2011ძირითადი შემსრულებელი
ქართული ენის კომპიუტერული სუფლიორი უნარდაქვეითებულ პირთათვისშოთა რუსთაველის საქართველოს ეროვნული სამეცნიერო ფონდის გრანტი FR/463/4-105/12 2009-2011პროექტის ხელმძღვანელი

პატენტის ავტორობა


უფლება ქართულ ან უცხოურ სასაქონლო ნიშანზე, სასარგებლო მოდელზე


-

საქართველოს მეცნიერებათა ეროვნული აკადემიის ან სოფლის მეურნეობის აკადემიის წევრობა


საერთაშორისო პროფესიული ორგანიზაციის წევრობა


კონფერენციის საორგანიზაციო/ საპროგრამო კომიტეტის წევრობა


ჯილდო ეროვნული/ დარგობრივი პრემია, ორდენი, მედალი და სხვ.


საპატიო წოდება


მონოგრაფია


სახელმძღვანელო


სტატია მაღალ რეიტინგულ და ადგილობრივ ჟურნალებში


პუბლიკაცია სამეცნიერო კონფერენციის მასალებში, რომლებიც ინდექსირებულია Web of Science-ში და Scopus-ში


Dialect Dictionaries in the Georgian Dialect Corpus, Theoretical Computer Science and General Issues. Publisher: Springer-Verlag Berlin Heidelberg, 2015. pp. 82 - 96საგრანტო პროექტი

The Georgian Dialect Corpus (http://mygeorgia.ge/gdc) is being developed as an instrument for the study and documentation of the geo-graphical varieties of Georgian. The strategy for the development of the GDC was based on one hand, on the international corpus experience, and on the traditions of Georgian dialectology and dialectography, on the other hand. In the corpus designing process we did our best to take into account the Georgian national linguistic and cultural space peculiarities.      

In the Georgian Dialect Corpus, dictionaries are applied to accomplish two goals: to achieve representativeness and for morphological annotation. The present paper gives the detailed description how the above mentioned functions are realized.

New texts are continuously being added to the corpus, and at the same time, the morphological annotation of the data is under processing; therefore, so far, the corpus can only be queried according to the following meta-textual (non-linguistic) features:

• Language and dialect

• Place of recording

• The informant’s identity

• Thematic and chronological features of a text

• Text type (narrative, poetry, conversation…)

  The structure of the corpus has been entirely determined by the fact that its technological chain comprises the whole cycle of text processing, beginning from data recording till their integration in the text base of the corpus. Hence, when the planning of field activities outline the occurrence of such components of the corpus as a block of administrative units, information blocks of chronological, thematic, sociologic, etc. features.

In order to facilitate the morphological annotation of the corpus, we presented the dialect dictionaries as “partially grammatical” dictionaries and applied them in the lemmatization and linguistic annotation processes. We decided to use the data of Georgian dialect lexicography in order to increase the lexical database (textual base) of the corpus as well.

https://archive.illc.uva.nl/Tbilisi/Tbilisi2013/
Syntax Annotation of the Georgian Literary Corpus, Theoretical Computer Science and General Issues. Publisher: Springer-Verlag Berlin Heidelberg, 2017 / LNCS 101148, pp 89-97სახელმწიფო მიზნობრივი პროგრამა

In order to solve theoretical and applied tasks of Georgian language it is very important to draw out deeply annotated text corpora. While syntactically annotated corpora are now available for English, Czech, Russian and other languages, for Georgian they are rare. The environment, developed by our research group, offers several NLP applications, including a module of morphologic, syntactic and semantic level, a Universal Networking Language interface and a natural language interface to access SQL type databases. In this article, we research the automatic syntactic parser of Georgian Language. It includes syntactic level as well as morphologic level of Georgian language model. The basis of the linguistic model of Georgian text syntax annotation is the dependency grammar.

https://archive.illc.uva.nl/Tbilisi/Tbilisi2015/Accepted-abstracts/index.html