Metin Madenciliği (Text Mining) Nedir?

Veri madenciliği üzerine yapılan çalışmalar çoğunlukla ilişkisel veritabanı ve veri ambarlarındaki veriler gibi yapısal veriler üzerine odaklanmış durumdadır. Ancak gerçekte erişilebilir ve kullanılabilir durumdaki verinin önemli bir bölümü metin veritabanlarında veya diğer ifadesiyle doküman veritabanlarında bulunmaktadır. Bu veritabanları genellikle haberler, makaleler, araştırma bildirileri, kitaplar, sayısal kütüphaneler, e-posta iletileri ve Web sayfaları gibi çeşitli kaynaklardan oluşan geniş doküman koleksiyonlarından oluşmaktadır. Elektronik ortamdaki bilgi miktarındaki artış nedeniyle metin veritabanlarının boyutları da hızla artmaktadır. Tahminlere göre iş dünyasına ilişkin bilginin %85'i metin formunda saklanmaktadır.

Metin Madenciliği (Text Mining), yararlı, ilginç ve daha önce bilinmeyen bilginin, bilgi işlem metodları ve teknikleri ile metin halindeki veriden elde edilmesi olarak tanımlanabilir. Metin Madenciliği, veri madenciliği, yapay zeka, doğal dil işleme (NLP Natural Language Processing), istatistik, bilgi erişim (IR Information Retrieval) ve bilgi yönetimi (Knowledge Management) tekniklerini kullanarak "bilgi patlaması" (information explosion / information overload) sorununa çözüm bulmayı amaçlayan bir araştırma alanıdır. Metin Madenciliği, doküman koleksiyonlarının önişlemeden geçirilmesi, ara sonuçların saklanması, ara sonuçların analiz edilmesi için çeşitli tekniklerin kullanılması ve nihai sonuçların görselleştirilmesi gibi aşamalardan oluşmaktadır.

Metin Madenciliği teknikleri dört temel kategoriye ayrılır: sınıflandırma (classification), birliktelik analizi (association analysis), bilgi çıkarım (information extraction) ve kümeleme (clustering). Sınıflandırma işlemi nesnelerin daha önceden bilinen sınıflara ya da kategorilere dahil edilmesidir. Birliktelik analizi ise sıklıkla birlikte yer alan ya da gelişen sözcük ya da kavramların belirlenmesi ve böylece doküman içeriğinin ya da doküman kümelerinin anlaşılmasını amaçlamaktadır. Bilgi çıkarım teknikleri ile dokümanların içerisindeki yararlı veri ya da ifadeler bulunmaya çalışılmaktadır. Kümeleme analizi, doküman kümelerinin temelini oluşturan yapıların keşfedilmesi amacıyla uygulanmaktadır.

 28.10.2009 13:56:55   Veri Madenciliği

İlk yorum yazan sen ol!

  Ad     

  E-Posta     

  Web Sitesi     

insert bold text insert italic text insert underlined text div align left align center align right div insert link insert email address insert image insert quotation insert horizontal rule div help

Yorum:

Beni hatırla

 Kategoriler
 Bağlantılar
 Son Yorumlar
 istatistikler

10 kategoride 79 yazı, 91 yorum

IP adresiniz: 38.107.191.108
Etkin ziyaretçi sayısı: 18