Show simple item record

dc.contributor.advisorYıldıztepe, Engin
dc.contributor.authorUzun, Volkan
dc.date.accessioned2021-05-01T14:16:37Z
dc.date.available2021-05-01T14:16:37Z
dc.date.submitted2014
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/559009
dc.description.abstractMetin madenciliğinin önemi gelişen web teknolojileri ile birlikte artmaktadır. Veri madenciliğinin bir alt türü olarak değerlendirilen metin madenciliğinde, metin halindeki yapılandırılmamış veri setlerinden anlamlı bilgiler çıkartılır. Metin madenciliği, istatistik, bilgi geri kazanımı, doğal dil işleme, dilbilim ve makine öğrenimi gibi birçok alan ile ilişkili bir araştırma alanıdır. Metin madenciliği birçok farklı alanda kullanılabilir. Anlamsal analiz bunlardan biridir. İngilizce için bir çok anlamsal analiz çalışması bulunmaktadır ancak Türkçe için anlamsal analiz çalışmaları oldukça azdır. Bunun sebebi Türkçenin yapısal zorluklarıdır. Anlamsal analiz yöntemlerini etkin bir şekilde kullanabilmek için gövdeleme (ek-kök ayrıştırması) ve anlamsız (cümle içinde tek başına anlam ifade etmeyen, edat bağlaç vb. gibi) kelimelerin ayrıştırılması işlemlerinin doğru yapılması gerekmektedir. Türkçe için başarılı sonuçlar veren gövdeleme algoritmaları bulunmaktadır ancak henüz hiçbiri standart hale gelmemiştir.Gizli Anlam Analizi (LSA), Olasılıksal Gizli Anlam Analizi (PLSA) ve Gizli Dirichlet Bölüştürmesi (LDA) anlamsal analiz yöntemlerinin başında gelmektedir. Bu tez çalışmasında, anlamsal analiz yöntemleri hakkında bilgi verilmiş ve bu yöntemlerin Türkçe metinler arasındaki anlamsal benzerliği hesaplamadaki performansları değerlendirilmiştir. Ayrıca Türkçenin morfolojisi ve metin temsil yöntemleri açıklanmıştır. LSA, PLSA ve LDA algoritmaları yapay ve gerçek veri setlerine uygulanmış ve sonuçlar değerlendirilmiştir. Yapay veri setleri farklı senaryolar ile üretilmiştir. Gerçek veri setleri ise farklı haber ajanslarından farklı konularda haberler derlenerek oluşturulmuştur.Anlamsal analiz yöntemleri konu sayısının bilindiği durumlarda kullanılabilirler. Ancak pratikte her zaman konu sayısı bilinmeyebilir. Bu çalışmada ayrıca konu sayısının bilinmediği durumlarda kullanılmak üzere, LSA ve PLSA'nın birlikte kullanıldığı yinelemeli bir algoritma önerilmiştir. Yapılan uygulamalarda bu algoritmanın başarılı sonuçlar verdiği görülmüştür. Gelecek çalışmalarda özellikle konu sayısının bilinmediği durumlarda da çalışabilecek yeni anlamsal analiz yaklaşımları geliştirilmelidir.
dc.description.abstractText mining has an increasing significance with the developing Web technologies. Text mining is a variation of data mining. It refers to the process of deriving information form unstructured textual data. Text mining is a multidisciplinary field related with statistics, information retrieval, natural language processing, linguistics and machine learning. Text mining approaches can be used for many different purposes. Semantic analysis is one of the text mining approaches. Numerous studies can be found about the semantic analysis for English. However, using semantic analysis methods for Turkish is not frequent. The reason for this is the structural difficulties of Turkish. In order for these methods to work efficiently the stemming and stop-word removal operations should be performed accurately. There are stemming algorithms for Turkish, yielding successful results but none of them has become a golden standard yet. Latent Semantic Analysis (LSA), Probabilistic Latent Semantic Analysis (PLSA) and Latent Dirichlet Allocation (LDA) are the most common semantic analysis techniques. In this thesis, information on semantic analysis methods was provided and the performances of these methods to compute semantic similarity between Turkish texts were evaluated. Also Turkish morphology and text representation methods were explained. LSA, PLSA and LDA algorithms were applied on artificial and real data sets and results were evaluated. Artificial data sets were generated with different scenarios. Real data sets were collected from different news agencies with different topics. All these algorithms perform while number of topics is known. However, number of topics may not be known in practice. In this study, an iterative algorithm using PLSA and LSA methods together, which yields accurate results when the number of topics is not known, was discussed. For the future, new approaches should be devised for enabling use of semantic analysis in cases where the number of topics is not known.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectİstatistiktr_TR
dc.subjectStatisticsen_US
dc.titleSemantic text mining and an application in turkish documents
dc.title.alternativeAnlamsal metin madenciliği ve türkçe dökümanlar üzerine bir uygulama
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentİstatistik Ana Bilim Dalı
dc.identifier.yokid10049733
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityDOKUZ EYLÜL ÜNİVERSİTESİ
dc.identifier.thesisid374016
dc.description.pages68
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess