Amaç
Günümüz dilbilim araştırmaları özellikle 1990’lı yıllardan itibaren internet ve yazılım teknolojilerinin gelişimiyle birlikte giderek veri yönelimli (data driven) bir duruma gelmiştir. Derlem dilbilim (corpus linguistics) araştırmaları çerçevesinde derlem (corpus) oluşturmak, derlemi yayımlamak, derlemden istenen sonuçları çıkarmak bir uzmanlık durumuna gelmiştir. Dil araştırmasının artık temel kaynağı, sayısallaştırılmış ve belirli bir yöntemle işaretlenip etiketlemesi yapılmış, biçimbirimsel, sözdizimsel ve kullanımbilimsel olarak da yapılandırılması oluşturulmuş derlem adı verilen elektronik ortamlardır.
Bu projenin temel kaynağı da çevrim içi haber kaynaklarından elde edilecek html metinleridir. Projenin verileri temel olarak, web crawler adı verilen yazılımlarla hedef haber kaynağı sistesinin bütün linklerinin taranmasıyla elde edilen ve html kodlarından arındırılmış salt metinlerin söz listelerinin veritabanından oluşacaktır. Türk Dil Kurumu Güncel Türkçe Sözlük madde başları listesiyle yapılacak karşılaştırmanın ardından aday yeni sözler elde edilmiş olacaktır. Çıkarımı yapılan yeni sözlerin sözlüğe girip girmeyeceğinin kararını vermek üzere hazırlanmış olacak web arayüzüyle sözlükbilimcilere ve Türk Dil Kurumu uzmanlarına da elde edilen sonuçlar güncel bir biçimde aktarılacaktır.
Yeni sözlerin otomatik çıkarımı için haber metinlerinin seçiminde bu metinlerin sürekli değişen dinamik yapısı göz önünde bulundurulmuştur. Proje süresi içinde haber sitelerinden indirilecek bu metinler güncel yapılarıyla, yalnızca yeni sözlerin bulunmasını değil aynı zamanda Türkiye Türkçesi söz varlığının belirli bir dönem ve daha sonrasının kaydının tutulması ve izlenmesi (monitörize edilmesi) amacıyla da kullanılabilecektir.
Projenin amaçları ve erişilmek istenen sonuçlar şu biçimde özetleyebiliriz:
1- Türkiye Türkçesi çevrim içi haber metinlerinin web crawler yazılımları aracılıyla taranıp söz listeleri ve sıklıklarının çıkarılması.
2- Türk Dil Kurumu Güncel Türkçe Sözlük madde başları referans veri tabanı kullanılarak taranmış listelerin bu veri tabanı ile karşılaştırılarak yeni aday sözlerin belirlenmesi.
3- Yeni aday sözlerin bağlı bulunduğu veri tabanının başta Türk Dil Kurumu’na ve uzmanlara ulaştırılmasını sağlayacak bir web arayüzünün hazırlanması. Bu arayüz aracılığıyla kullanıcıdan etkileşimli olarak söz listeleri hakkında dönütlerin alınması ve sözlüğe girebilecek aday yeni sözlerin karar aşamasının gerçekleştirilmesi.
4- Türkiye Türkçesi söz varlığının güncel olarak sıklık bilgileriyle birlikte bir monitör liste derleminin hazırlanması ve kamuoyuyla paylaşılması.