ქართული სიტყვების სია | GEORGIAN WORD LIST
25/04/2011 OLD USER
განმარტება: მართალია, ეს სტატია აქ კვლავ დევს, მაგრამ სამწუხაროდ პროექტის ფაილები დიდი ხანია, რაც დაზიანდა და აღარ არსებობს. შესაბამისად, ტყუილად ნუ მოიწერებით წერილს, სამწუხაროდ ვერაფრით დაგეხმარებით.
ძვირფასო მოგობრებო!
მაქვს პატივი წარმოგიდგინოთ ჩემი საკმაოდ შრომატევადი მუშაობის შედეგი: ქართულ სიტყვათა სია, ე.წ. „Word List“-ი. პროექტი ფრიად შთამბეჭდავია თავისი მოცულობით.
პირველ ეტაპზე ინტერნეტში არსებული ღია წყაროებიდან (საჯარო ბიბლიოთეკის ვებ-გვერდი, ქართული ჟურნალ-გაზეთების არქივის ვებ-გვერდი და ა.შ.) მოგროვდა პირველადი მასალები. მოხდა მიღებული ტექსტის გაცხრილვა დუბლიკატებზე და პარაზიტ-სიტყვებზე. მიღებულ სიტყვათა მოცულობაც შტაბბეჭდავი აღმოჩნდა: 108 000-მდე არსებითი სახელი და 10 000-11 000 ზმნა.
მეორე ეტაპზე მოხდა სიტყვათა არსებული ბაზის მიხედვით ფუძეების გამოყოფა (უნდა აღინიშნოს, რომ ეს ყველაზე შრომატევადი საქმე გახლდათ).
მესამე ეტაპზე ქართული ენის გრამატიკის წესებზე დაყრდნობით ჩამოყალიბდა მიღებული ფუძეებიდან სიტყვა-ფორმების წარმოშობის ალგორითმი. მასზე დაყრდნობით დაიწერა კომპიუტერული პროგრამა.
ბოლო ეტაპი გახლდათ ამ პროგრამის მიერ ფუძეების მიხედვით და ალგორთმზე დაყრდნობით ყველა შესაძლო ვარიანტის დაგენერირება.
შედეგად მივიღეთ 66 მილიონზე მეტი სიტყვა ფორმა, რაც ქართულ ენას ფარავს 97%-ით.
ამიერიდან ამ პროექტის მასალები ყველასათვის ხელმისაწვდომი ხდება! თქვენ თავისუფლად შეგიძლიათ გამოიყენოთ ის თქვენს ნებისმიერ პროექტში MIT-ლიცენზიაზე დაყრდნობით.
ამასთან ერთად, მომზადებულია ქართული ენის სიხშირული ლექსიკონი, რომელიც 2413 სიტყვას ითვლის. ეს