Kontent qismiga oʻtish

Intellektual matn tahlili

Vikipediya, ochiq ensiklopediya

Matn yaratish ( IMT, inglizcha: text mining ) ― sun'iy intellektning asosiy yoʻnalishidan biri bo'lib, uning maqsadi mashinani o'rganish va tabiiy tilni qayta ishlashning amaliy usullarini qo'llash asosida matnli hujjatlar to'plamidan ma’lumot olishdir. "Matn yaratish " nomi "m’alumotlar orasidan matn qazb olish" tushunchasiga mos keladi ( AID, inglizcha: data mining ), bu ularning maqsadlari, axborotni qayta ishlashga yondashuvlari va qo‘llanilishi sohalarining o‘xshashligini ifodalaydi; farq nafaqat yakuniy usullarda, yoki, AID elektron kutubxonalar va matn korpuslari bilangina emas, balki omborlar va maʼlumotlar bazalari bilan shug‘ullanishida namoyon bo'ladi.

AIT vazifa guruhlari

[tahrir | manbasini tahrirlash]

AIT vazifalarining asosiy guruhlari quyidagilardan iborat: matnni turkumlash, ma’lumotlarni ajratib olish va qidirish, matn to'plamlaridagi o‘zgarishlarni qayta ishlash va foydalanuvchiga ma‘lumot taqdim etish vositalarini ishlab chiqish.[1]

Hujjatlarni turkumlashtirish to'plamdan hujjatlarni o‘xshash matnlarning bir yoki bir nechta guruhiga (sinflari, klasterlari) (masalan: mavzu yoki uslub bo'yicha) ajratishdan iborat. Kategoriyalashtirish shaxs ishtirokida ham, usiz ham sodir bo‘lishi mumkin. Hujjatlar tasnifi deb ataladigan birinchi holatda, AIT tizimi matnlarni allaqachon aniqlangan (uning uchun qulay) sinflarga kiritishi kerak. Mashinani o‘rganish nuqtai nazaridan, bu nazorat ostida o'rganishni talab qiladi, buning uchun foydalanuvchi AIT tizimiga sinflar to‘plamini va ushbu sinflarga tegishli hujjatlar namunalarini taqdim etishi kerak.

Kategoriyalashtirishning ikkinchi holati hujjatlarni klasterlash deb ataladi. Shu bilan birga, AIT tizimi matnlar tarqatilishi mumkin bo'lgan klasterlar to'plamini o'zi aniqlashi kerak - mashinani o'rganishda tegishli vazifa deyiladi nazoratsiz o‘rganish. Bunday holda, foydalanuvchi IAT tizimiga qayta ishlanayotgan to'plamni bo'lishni xohlagan klasterlar sonini aytishi kerak (xususiyatlarni tanlash protsedurasi allaqachon dastur algoritmiga kiritilgan deb taxmin qilinadi).

So'nggi paytlarda matn tahlili xavfsizlik, tijorat va ilm-fan kabi turli sohalarda tobora ko'proq e'tiborni tortmoqda.

Aerotext va Attensity kabi ko‘plab matn tahlil paketlari xavfsizlik ilovalari bozoriga, xususan, yangiliklar saytlari kabi oddiy matn manbalarini tahlil qilishga qaratilgan.

Dasturiy ta'minotda

[tahrir | manbasini tahrirlash]

IBM, Apple va Microsoft kabi yirik kompaniyalarning tadqiqot va ishlanmalar boʻlimlari kelajakda maʼlumotlarni tahlil qilish va chiqarish jarayonlarini avtomatlashtirish maqsadida matn tahlili texnologiyalarini oʻrganmoqda.

  1. Berry 2003.
  • Intellektual matn tahlili
    Muallif(lar) Peskova O. В.
    Sahifalar soni 170—212
    ISBN 978–5–94506–294–8
    • Survey of Text Mining I: Clustering, Classification, and Retrieval, 2004, Springer, 2003. ISBN 0387955631. 
    • Aggarwal C. C., Zhai C.. Mining Text Data. Springer, 2012. ISBN 9781461432234. 
    • Do Prado H. A.. Emerging Technologies of Text Mining: Techniques and Applications. Idea Group Reference, 2007. ISBN 1599043734.