Türkçe metinlerden anlamsal bilgi çıkarımı için bir veri madenciliği uygulaması

Arslan, Abdullah Alphan

dc.contributor.advisor	Oğul, Hasan
dc.contributor.author	Arslan, Abdullah Alphan
dc.date.accessioned	2020-12-04T08:41:40Z
dc.date.available	2020-12-04T08:41:40Z
dc.date.submitted	2012
dc.date.issued	2018-08-06
dc.identifier.uri	https://acikbilim.yok.gov.tr/handle/20.500.12812/67003
dc.description.abstract	Günümüzde genel ağın yaygınlaşması ile beraber kaynakların fazlalığı bilgiye erişmede yeni bir sorun olarak ortaya çıkmaktadır. Bilgiye erişimde şu anki durumuyla çeşitli arama motorları anlamsal bağlantılar olmaksızın arama yapmamıza izin vermekte fakat doğru veriye erişmeyi garanti edememektedir. Anlamsal ağ genel ağ üzerinde işlenmiş veriye ulaşmak üzere öngörülen bir yapıdır, fakat beslenmesi için mevcut verilerin işlenmesi gerekmektedir. Bu bağlamda bilgi çıkarımı, doğal dildeki, yapısal olmayan, metinlerin çözümlenmesi ve bu metinlerin içerdiği gerekli bilginin yapısal olarak belirlenmesi işlemidir. Bu noktada veri madenciliği süreçleri bu kez yapısal olmayan veri üzerinde çalışacak şekilde evrilebilir. Bu amaçla belirlenen süreç OİÇ(Otomatik İçerik Çıkarımı) ile tanımlanmıştır. Bu süreç temel olarak 3 adımda oluşur: varlık(ad) çıkarımı, ilişki çıkarımı, olay çıkarımı. Varlık (ad) çıkarımı serbest metinlerde gecen varlık isimlerinin bulunması, ilişki çıkarımı ise metinde belirlenen bu varlıklar arasındaki ilişkinin belirlenmesi ve olay-eylem çıkarımı ise belirlenen bu varlıkların içinde bulunduğu olayların belirlenmesidir.Bu çalışmanın amacı Türkçe metinlerden bilgi çıkarımı sürecinde ilişkilerin tanımlanması için yapılabileceklerin incelenmesidir. Bu bağlamda Türkçe ve İngilizce için yapılan çalışmalar incelenmiş ve bilgi çıkarım sürecindeki `varlık` kavramının Türkçe bir ada eşit olduğu varsayılarak bir sistem tasarlanmıştır. Gazete haber metinlerinden seçilen tümcelerden bir veri kümesi oluşturulmuş ve oluşturulan bu veri kümesinde her bir tümcenin içinde geçen her iki sözcük , ele alınan tümcelerin yüklem olabilecek sözcüğü göz önüne alınarak , karşılaşma sıklığı, aralarında bulunan diğer sözcüklerin sayısı, tümcede ilk sözcük oluşları gibi bazı özellikleri kullanılarak ilişkili olup olmadıkları hakkında inceleme yapılmıştır. İncelemede kullanılan bu özellikler ifadede bulunduğu konuma göre belirlenen özelliklerin yanı sıra ilk sözcüğün kaç farklı sözcükle birlikte oluşu ,sözcük çiftinin kaç farklı yüklem ile birlikte olduğu gibi sıklık verileri de eklenmiştir. Yapılan inceleme ele alınan iki sözcüğün ilişkili olmalarına karar vermede farklı özelliklerine çeşitli eşik değerler uygulanarak karar verilmiş ve sınıflandırılmış veri destek vektör makinesi algoritması kullanılarak belirlenen eşik değerleri ve veri kümesinin doğruluğuna dair sonuçlar elde edilmeye çalışılmıştır. Hazırlanan bu sistem Türkçe hazırlanmış bir genel ağ sayfasının içeriğinin belirlenen standartlara uygun hale getirilmesi ve sunulması için bir ön çalışma niteliğindedir.
dc.description.abstract	Today, with spreading of internet, information word has a new problem about to reach the right information from the large amounts of data. Existing search engines can only fetch the data even no relation with the search subject. Semantic web technology is created to reach the related information from the web. For this technology, Information Extraction is extracting related and structured information from natural language raw texts. ACE determines whether this processes as a result of conferences and workshops. With ACE the problem deals with three main tasks; Entity Detection and Tracking , Relation Detection and Characterization, and Event Detection and Characterization.The purpose of this study was to examine Turkish texts can be possible to identify relationships in the process of information extraction. In this study we used Automated Content Extraction(ACE) as a guide to detect relation of entities from Turkish texts. In this context Turkish and English studies examined and assuming that if an entity is equal to a name of a system designed. With this system, news page contents collected and some sentences ,words and verb of sentence abstracted and every couple words in a sentece with the verb of the sentence recorded with some other specifications about the locations in the phrese. After building this frequency data base various views created to determine if the word couple is related. With this views classification made by word couple and verb rate and tested over support vector machine alghoritm. A web page content prepared in Turkish can be brought into line with the standards specified with this system for the submission of a preliminary study.	en_US
dc.language	Turkish
dc.language.iso	tr
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution 4.0 United States	tr_TR
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr_TR
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.title	Türkçe metinlerden anlamsal bilgi çıkarımı için bir veri madenciliği uygulaması
dc.title.alternative	A data mining application for extracting semantic information from Turkish texts
dc.type	masterThesis
dc.date.updated	2018-08-06
dc.contributor.department	Bilgisayar Mühendisliği Anabilim Dalı
dc.identifier.yokid	424750
dc.publisher.institute	Fen Bilimleri Enstitüsü
dc.publisher.university	BAŞKENT ÜNİVERSİTESİ
dc.identifier.thesisid	301598
dc.description.pages	114
dc.publisher.discipline	Diğer

Files in this item

Name:: yokAcikBilim_424750.pdf
Size:: 2.060Mb
Format:: PDF
Description:: File_424750

View/Open

This item appears in the following Collection(s)

TEZLER

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess