N-Gram Öznitelikleri Üzerinden Oluşturulan Tam Alt Çizgeler Yardımıyla Metin Sınıflandırması

TÜBİTAK Projesi, 2022 - 2024

Proje Türü: TÜBİTAK Projesi
Başlama Tarihi: Haziran 2022
Bitiş Tarihi: Haziran 2024

Proje Özeti

Güncel teknolojik gelişmeler hayatımızın her yönünü ciddi bir şekilde yeniden yapılandırıyor. Özellikle dijital dönüşüm kavramı, anlık ve zamandan tasarruf sağlayan günlük yaşam işlerinde birçok avantajı beraberinde getiren önemli dönüşümlerden birisidir. Daha somut bir örnek vermek gerekirse, insanlar herhangi bir zaman kısıtlaması olmaksızın dünya çapında belirli bir konudaki son güncellemelere/bilgilere kolayca ulaşabilmektedir. Günlük yaşantımızda, dijital dönüşümün tam anlamıyla tamamlanmamış olmasına rağmen dijital ortamda bulunan metinsel verilerin boyutu günbegün hızla artmaktadır. Bu verilere örnek olarak makaleler (akademik ve akademik olmayanlar dahil), klinik hasta kayıtları, web sayfaları, çevrimiçi ortamlarda yapılan alışveriş kayıtları ve sosyal medya (Twitter, Facebook ve Reddit gibi) paylaşımları verilebilir. Bu nedenle, farklı hesaplamalı teknikler (özellikle veri madenciliği, metin madenciliği ve makine öğrenmesi algoritmaları) bu denli yüksek boyutlu metin yığınlarını analiz etmek için farklı alanlarda özel amaçlar için yoğun şekilde kullanılmaktadır. Bu anlamda, metinsel veriler üzerinde gerçekleştirilen önemli çalışmalardan birisi de metinsel varlıkların (textual entities/documents) doğru kategoriler içinde sınıflandırılmasıdır. Bu bağlamda, bir metinsel varlık, bir sosyal medya paylaşımı (örneğin, tweetlerin alakalı veya alakasız olarak etiketlenmesi çalışmasında) veya bir medikal makale (örneğin, makaleye doğru Medikal Konu Başlıkları (MeSH) terimlerinin atanması görevinde) olabilir. Bu amaçla, sözcük torbası (BoWs) ve temel metin/doküman özelliklerini yansıtan n-gram öğeleri gibi güçlü metinsel öznitelikleri kullanarak bir sınıflandırma modeli oluşturmak için çeşitli yaklaşımlar uygulanmaktadır. Ayrıca, İleri Beslemeli Sinir Ağları (FFNN), Evrişimsel Sinir Ağları (CNN) ve Tekrarlayan Sinir Ağları (RNN) ile daha sofistike varyantları olan LSTM ve GRU gibi modellerden de sıklıkla yararlanılmaktadır. Ek olarak, yaklaşık son beş yıldan bu yana dönüştürücü tabanlı bir makine öğrenmesi tekniği olarak iki yönlü kodlayıcı-dönüştürücü modeli olan (BERT) derin öğrenme (DÖ) yaklaşımı modern bir mimari olarak kullanılmaktadır. Bu uygulamalar temelde kelimeleri bir vektör temsiline yerleştiren vektör uzay modelleri olarak bilinirler. Bu noktada, önerilen bu araştırma projesindeki birincil motivasyonumuz, n-gram öznitelikleri ve derin öğrenme mimarilerinden yararlanarak, CNN tabanlı grafik evrişimli ağ yaklaşımını içeren bir hibrit model oluşturmaktır. Projedeki özgün fikir, var olan g-CNN modellerinden farklı olarak metinsel verilerin (n-gram tam çizgeleri yardımıyla) çizge veri tipine dönüştürülmesiyle her bir kelime için uzak komşuluk ilişkilerinin de kelime temsilleri oluşturma noktasında dahil edilerek sınıflandırma gücüne katkı sağlamasıdır. Oluşturulan çizgelerde filtrelenmiş kelimeler düğümleri temsil edecektir. Burada n-gram (n= 2, 3, 4, 5, ..., k) kelime serileri üzerinden oluşturulan tam çizgeleri birleştirerek global belge çizgeleri oluşturulacaktır. Sonraki adım olarak, yalnızca yerel (komşu) kelimelerle değil, aynı zamanda uzak kelime temsillerini (embeddings) de kullanarak daha karakteristik kelime temsilleri elde edilecektir. Bu doğrultuda bir çizge evrişimsel sinir ağları (g-CNN) modeli oluşturulacaktır. Sonuç olarak, global düzeyde oluşan kelime temsilleri ile daha yüksek sınıflandırma performansı hedeflenmektedir. Daha sonrasında oluşturulan bu gelişmiş kelime temsilleri kullanılarak, sınıflandırma görevi için LSTM ve BERT gibi modern ve sofistike derin öğrenme modellerinden faydalanılacaktır.