Computer-aided analysis of english punctuation on a parsed corpus: The special case of comma
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Dilin yazımsal bir öğesi olan noktalama, bilgisayarlı dilbilim alanındaki araş tırmalarda yıllar boyu ihmal edilegelmiştir. Bunun bir nedeni konunun genel zorluğu, diğer bir nedeni de dayanak noktası olabilecek sağlam bir teorinin eksikliğidir. Öte yandan, son yıllarda gerek 'geleneksel' gerekse bilgisayarlı dilbilim alanlarının noktalamaya ilgisi giderek artmıştır; çünkü, noktalama işaretlerini dikkate almadan yazılı dili gerçekten anlayıp işlemenin neredeyse imkansız olduğu ortaya çıkmıştır. Biçim kılavuzları ve genel dilbilgisi kitaplarında verilen kural listeleri dışında noktalama hakkında az bilgiye sahibiz. Bu tür kitaplar noktalama işaretlerinin nasıl kullanılacağına dair bilgiler verirken, bunların uygulamada nasıl kullanıldığı konusunda genelde sessiz kalmaktadırlar. Bu tez, İngilizce'de noktalama uygulamasının, virgülün (noktalama işaretlerinin en önemlisi) özel durumu için, cümle yapısına göre notlanmış bir metin veritabanında incelenmesi amacıyla yapılmış bilgisayar destekli bir deneyin ayrıntılarını içermektedir. Bu deneyde, virgülün değişik kullanımlarını cümlede ortaya çıktığı değişik sözdizimi şablonlarına göre sınıflandırmaya çalıştık. Kullanılan metin veri- tabanı (Penn Treebank) sadece sözdizimi yapısına göre notlanmış cümlelerden oluşup başka hiçbir bilgi içermemekte, bu ise yapısal noktalama işaretlerinin sınıflandırılması için ideal olarak yeterli görünmektedir. Anahtar sözcükler: Bilgisayarlı Dilbilim, Doğal Dil İşleme, Noktalama, İngilizce, Metin-tabanlı Analiz, Virgül. iv Punctuation, an orthographical component of language, has usually been ig nored by most research in computational linguistics over the years. One reason for this is the overall difficulty of the subject, and another is the absence of a good theory. On the other hand, both 'conventional' and computational lin guistics have increased their attention to punctuation in recent years because it has been realized that true understanding and processing of written language will be almost impossible if punctuation marks are not taken into account. Except the lists of rules given in style manuals or usage books, we know little about punctuation. These books give us information about how we should punctuate, but they are generally silent about the actual punctuation practice. This thesis contains the details of a computer-aided experiment to investigate English punctuation practice, for the special case of comma (the most sig nificant punctuation mark) in a parsed corpus. The experiment attempts to classify the various uses of comma according to the syntax-patterns in which comma occurs. The corpus (Penn Treebank) consists of syntactically annotated sentences with no part-of-speech tag information about individual words, and this ideally seems to be enough to classify 'structural' punctuation marks. Keywords: Computational Linguistics, Natural Language Processing, Punctu ation, English, Corpus-based Analysis, Comma. m
Collections