O‘zbek lingvistik korpusini yaratish tajribasidan (konkordans, tokenayzer, lemmatayzer, razmetkalash dasturlari asosida)
Ushbu dissertatsiya O'zbekiston Respublikasi Prezidentining 2020-yil 20-oktyabrdagi PF-6084-sonli farmoni bilan tasdiqlangan "2020-2030-yillarda oʻzbek tilini rivojlantirish va til siyosatini takomillashtirish konsepsiyasi" doirasida oʻzbek tili milliy korpusini yaratish va undan foydalanish uchun dasturiy ta'minot ishlab chiqishga bagʻishlangan. Tadqiqotda Oʻzbek tilining milliy korpusini yaratish jarayonining nazariy va amaliy jihatlari, uning tarkibiy qismlari, jumladan, konkordans, tokenayzer, lemmatayzer, razmetkalash dasturlari va ularning qoʻllanilishi batafsil yoritilgan. Tadqiqot natijalari Oʻzbekiston Respublikasi Fanlar akademiyasi Alisher Navoiy nomidagi Tilshunoslik instituti, Samarqand davlat universiteti va Toshkent axborot texnologiyalari universiteti kabi ilmiy-tadqiqot muassasalarida, shuningdek, xalqaro va respublika ilmiy-amaliy konferensiyalarda aprobatsiyadan oʻtkazilgan va chop etilgan.
Asosiy mavzular
- Oʻzbek lingvistik korpusini yaratish tajribasi: Dissertatsiya O'zbek tilining milliy korpusini yaratish va undan foydalanish bo'yicha nazariy va amaliy masalalarni o'rganadi. Konkordans, tokenayzer, lemmatayzer, razmetkalash dasturlari va ulardan foydalanishning asosiy jihatlari tahlil qilinadi.
- Milliy korpus yaratish va tadqiq etish: Ushbu bobda korpus uchun matnlar to'plamini yig'ish, raqamlashtirish va formatlash usullari, konkordans tuzish va tahlil qilishning algoritmlari, shuningdek, "Alpomish" dostonining matnlaridan foydalanish natijalari keltirilgan.
- Oʻzbek tili milliy korpusining dasturiy ta'minoti: Ikkinchi bobda oʻzbek tili milliy korpusining dasturiy ta'minoti strukturasi va vazifalari, matnlar bazasini shakllantirish, korpus lug'atini shakllantirish va tahrirlash, korpusga matnlar kiritish va matnlarni razmetkalash dasturlari batafsil tavsiflangan.