Automated coherence detection with term-distance pat extraction of the co-occurrence matrix of a document
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tez, metinsel tutarlılığı ölçmek için dağılımsal anlambilimini teorik çerçeve olarakkabül etmektedir. Dağılımsal anlambilimi söylem sekmelerini vektör olarak alır vevektör boyutlarını metindeki tekrarlı kelime sayılarından oluşturur. Bu sayede metininanlam darağacının oluşturulmasını sağlar. Metinsel tutarlılık bu vektörlerin cosinedeğerleri hesaplanarak ölçülür (Gizil Anlambilim analizi, LSA). Bu çalışmalardakiortak varsayım metin tutarlılığını ölçmek için metindeki tekrarlanan kelime frekanslarıbir kohezif ip ucu olarak kullanılabilir. Böylece, kelime-doküman matrisleritemelli analizlere kapı aralanmış olur. Bu tez, bir metinde ardışık cümlelerdeki tekrareden kelimelerden elde edilen kelime-mesafe matrisinin (kelime-doküman matrisininbir türevi) metin tutatlılığının ölç ümünde kullanılabileceğini ileri sürmektedir. Tez,do-küman-mesafe matrisinin elde edilebilmesi için 2 adet matematiksel fonksiyonve fonksiyonları kullanan 2 adet algoritma önermektedir. Matematiksel fonksiyonlardoküman-doküman matrisinden doküman-mesafe matrisini üretmek için kullanılmaktadır.Algoritmalar, yeni önerilen doküman-mesafe matrisi uzerinde işleyerek metinseltutarlılığı ölçmektedir. This thesis takes the distributional semantics (frequency-based semantics) approachas the theoretical framework to quantify textual coherence. Distributional semanticsdescribes discourse sections as vectors, having dimensions are the frequency count ofco-occurring words in the text within its semantic space. It quantifies the textual coherenceby measuring the cosine values of vectors of successive sentences (cf. LatentSemantic Analysis, LSA). The common assumption underlying LSA based studies isthat the frequency of word co-occurrence can be used as a cohesive cue to quantifytextual coherence, thus leading to analyses based on a term-document matrix. In thisthesis, the spatial distance of co-occurring words is considered as a new frequencyevent of cohesive cues and introduces a document-distance matrix, which is derivedfrom the term-document matrix. This thesis proposes that the matrix representationof document-distance (a derivation of term-document matrix) of co-occurring wordsin adjacent sentences in a text can be used to quantify textual coherence. Two mathematicalfunctions are suggested for deriving the document-distance matrix and twoalgorithms for the operations. The mathematical functions operate on the documentdocumentmatrix (a derivation of term-document matrix) to derive the documentdistancematrix. The algorithms measure the coherence of text by operating on thenewly introduced document-distance matrices.
Collections