Show simple item record

dc.contributor.advisorÇelebi, Fatih Vehbi
dc.contributor.authorCan, Yasemin
dc.date.accessioned2020-12-10T11:45:42Z
dc.date.available2020-12-10T11:45:42Z
dc.date.submitted2018
dc.date.issued2019-05-14
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/266075
dc.description.abstractGünümüz dünyasının vazgeçilmezleri arasında ilk sıralara yükselen ve hızla gelişen teknoloji beraberinde hızla büyüyen ve karmaşıklaşan bir veri üretimini de tetiklemekte. Bu, baş döndürücü bir hızla büyüyen karmaşık yapılı verinin saklanması, işlenebilmesi ve içinde sakladığı anlamlı bilginin çıkarılması geleneksel veri tabanı yönetim sistemleri ve veri madenciliği yöntemleriyle verimli ve etkin bir şekilde gerçekleştirilememektedir. Bu eksikliğin giderilmesinin yanı sıra bu büyük hacimli ve düzensiz yapılı verinin işlenerek anlamlı çıkarımlarla ilgili olduğu sektöre değer katması amacıyla ortaya çıkan büyük veri kavramı ve teknolojileri birçok ülke yönetimi ve özel şirketlerce ciddi ve değer katan bir çalışma alanı olarak kabul edilmektedir. Büyük verinin 3V olarak başlayan ve günümüzde 5V olarak kabul gören hacim, hız, çeşitlilik, değer ve gerçeklik özellikleri kapsamına giren veriler sosyal ağlar, sensor kayıtları, mobil araçların ürettikleri, GPS verileri gibi çok çeşitli kaynaklardan gelmektedir. Belli bir formatta olmayan bu çok çeşitli verilerden anlamlı bilgilerin çıkarılması ile devletler yeni politikalar geliştirmekte, şirketler karlarını ve ürün kalitelerini artırmaktadırlar. Bu tez çalışmasında; öncelikle büyük veri kavramı ve ilişkili kavramlar açıklanmıştır, ayrıca büyük veri alanında güncel yaklaşımlar ve uygulama alanları konusu ile bilgi yönetimi ile olan ilişkilerine değinilmiştir. Sonrasında ise literatür taraması sonucu daha önce üzerinde bir metin analizi çalışması yapılmadığı sonucuna varılan T.C. Resmi Gazete ve TRT Haber sitesinde yayımlanan haber arşivleri düzensiz metin verisi yapısında olması nedeniyle büyük veri kaynağı olarak ele alınmış, çeşitli ön işleme ve veri temizleme sürecinden geçirildikten sonra Temmuz 2015 – Temmuz 2017 dönemine ait Resmi Gazete arşivinden yaklaşık 61.551.000 kelime içiren 714 dosya, TRT Haber web arşivinden yaklaşık 3.794.000 kelime içeren 542 dosya alınarak kütüphaneler oluşturulmuş, Apache Spark platformu ve Python dili ile kelime sıklığı işlemi ile analiz edilmiş olup, söz konusu döneme ait Resmi Gazete ve TRT Haber arşivinde geçen kelimelerin azalan sırada terim sıklığı matrisi çıkarılmış ve bunlardan kelime bulutları oluşturulmuştur. Daha sonra bu iki veri setinin benzerlik ilişkisini tespit etmek amacıyla Tf-IDF ve kosinüs benzerliği algoritmaları kullanılarak yıllık ve aylık olarak bölünmüş alt veri setleri üzerinde karşılaştırma çalışmaları yapılmıştır. Yapılan bu çalışma sonucunda yıllık olarak gruplanmış Resmi Gazete ve TRT Haber web arşivinden alınan aynı zaman aralığına ait içeriklerin kosinüs benzerliği 0,008 ile 0,03 aralığında bulunmuştur. Ayrıca, aylık olarak bölünmüş veri setleri üzerinde Resmi Gazete ve TRT Haber arşivlerinin birbirlerini nasıl etkilediklerini tesbit etmek amacıyla bir kosinüs benzerliği karşılaştırması yapılmış ve sonucunda ülke gündeminin yansıdığı TRT Haber arşivlerinin Resmi Gazete içerikleri üzerindeki etkisi, Resmi Gazete içeriğinin TRT Haber arşivi ve dolayısıyla ülke gündemi üzerine etkisinden daha yüksek olduğu sonucuna varılmıştır.Son olarak ise gelecekte üzerinde çalışmaya değer olarak görülen ve hukuk alanında çalışanların işini kolaylaştırabilecek büyük veri metin analizi yöntemleri kullanılarak geliştirilebilecek bir Mevzuat Tavsiye Motoru uygulaması ele alınmıştır.
dc.description.abstractAmong being indispensable parts of today's world, rapidly developing information technologies are rising at first and also triggering the production of rapidly growing, unstructured and complicated data. Storing, processing and extracting meaningful information from this huge, complex and unstructured data with dizzying pace cannot be accomplished efficiently and effectively by traditional database management systems and data mining methods. In order to eliminate these deficiencies and to add value to the sector and governments for making meaningful deductions and decisions by processing unstructured data large volume, the big data concepts and technologies has emerged. Today big data is considered to be a serious and valuable field for many governments and private companies. Big data is defined with previously, 3V but recently 5Vof meaning volume, variety, velocity, value and veracity comes from different sources including social networks, sensor records, mobile devices, GPS data etc. By extracting meaningful information from this unstructured data coming from various sources, governments and companies are developing new policies along with increasing their profits and product and service qualities.In this thesis study; firstly, the concept of big data and related concepts are explained, then recent approaches and application areas in big data field along with the relationship between knowledge management are discussed. After that, according to the results of literature review we concluded that there is no study on text analysis of Turkish Official Gazette and TRT Haber web news archives. Therefore, these archives selected as a big data source because of being an unstructured text data collection. 714 files consisting of about 61.551.000 words and belonging to July 2015 - July 2017 period from Official Gazette and 542 files from TRT Haber web site consisting of about 3.794.000 words and belonging to the same time interval were selected as corpora and pre-processed, cleaned and analyzed by Apache Spark platform using Python language in terms of generation of term frequency matrices of the two datasets. According to these, word clouds were generated. After that, comparisons between these two datasets divided by year and by month were done using Tf-IDF and cosine similarity algorithms in order to get some insight about how much similar they are. As a result of these comparisons, it is concluded that the cosine similarity between Official Gazette and TRT Haber web news archives divided by year differs between 0,008 and 0,03. In addition, according to the results of cosine similarity comparison on monthly divided dataset, a correlation between two datasets about how they affect each other is looked for. And it is concluded that the ratio of the effect of agenda of the country covered in TRT News website on Official Gazette is higher than the ratio of the effect of Official Gazette on the TRT News archive. Finally, a Legislative Referral Engine application, which can be developed by using big data text analysis methods which are considered to be worth working on and which can facilitate the work of lawyers, is discussed as a future work.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleAnalytics of Turkish official gazette archives using big data mining techniques
dc.title.alternativeResmi gazete arşivlerinin büyük veri teknikleri ile analiz edilmesi
dc.typemasterThesis
dc.date.updated2019-05-14
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.identifier.yokid10222866
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityANKARA YILDIRIM BEYAZIT ÜNİVERSİTESİ
dc.identifier.thesisid537892
dc.description.pages108
dc.publisher.disciplineBilgisayar Mühendisliği Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess