Keyphrase extraction from Arabic scientific articles
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Anahtar kelimeler, dokümanları özetleme, gruplandırma, indeksleme ve aramada çok önemli araçlardır. Birçok akademik dergi; makale yazarlarından, makaledeki çalışmalarını özetleyecek anahtar kelime listesini belirlemelerini ister. Anahtar kelimelerin önemine rağmen çok az yayınlanmış Arapça makale anahtar kelime içermektedir. Birçok algoritma ve sistem çeşitli dillerde anahtar kelime çıkarmak için kullanılır. Bu zengin literatüre rağmen, bu konuda sadece bir kaç makale Arapça dili için yazılmıştır.Bu tez çalışmasında, iki yöntemden yararlanarak Arapça makalelerden anahtar kelime, çıkarma yapılacaktır. İlk yöntem; anahtar kelime çıkarmak için özel bir köklendirme yöntemi kullanılması, ikinci yöntem ise ana bölümlere göre makalelerin bölünmesi ve her bölümdeki anahtar kelimelerin öneminin belirlenmesidir.Bu araştırmada Arapça dil için anahtar kelime çıkarmaya uygun korpus oluşturuldu. Anahtar kelime çıkarması için yeni bir morfolojik strateji uygulanacak ve bu algoritma anahtar kelime çıkarma konusunda en gelişmiş iki algoritmayla, yani Kea ve KP-Miner ile mukayese edilecektir. Önerilen morfolojik algoritma, bu algoritmalara göre daha verimli sonuçlar elde etmektedir. Keyphrases are very important tools for summarizing, clustering, indexing and searching documents. Many academic journals request from article authors a list of keyphrases summarizing their research articles. Despite the importance of keyphrases, unfortunately only a few of published Arabic articles contain them. Many algorithms and systems have been suggested and applied by automatically extracting keyphrases for many languages. In contrast to this rich literature, only a few articles have been written for the Arabic language.In this thesis, an attempt will be made to extract keyphrases from Arabic articles, by making use of two methods; the first method uses a specialized stemming approach for extracting keyphrases. The second method splits the articles with respect to their main sections and determines the importance of the phrases in each section. In this research a keyphrase extraction corpora for the Arabic language will be built, a new morphological processing strategy especially for keyphrase extraction will be implemented and this algorithm will be compared with two state-of-the-art algorithms, namely Kea and KP-Miner. The proposed morphological processing algorithm achieves superior results compared to these algorithms.
Collections