Osmanlı arşiv ve kaynaklarına yapay zeka destekli çözüm geliştirildi

Sosyal bilimlerde en büyük problemlerden biri olan Osmanlı arşiv ve kaynaklarının günümüz Türkçesine aktarılmasına ülkemiz akademisyenlerinden yapay zeka destekli çözüm geliyor.

İstanbul Üniversitesi-Cerrahpaşa doktoraöğrencis İshak Dölek’in danışmanıyla birlikte geliştirdiği proje, TÜBİTAK 1512 destekleme programına kabul edildi. KOSGEB’ten de destek alan proje, tamamlanan OCR uygulamasıyla birlikte girişime dönüştürüldü. İstanbul Üniversitesi-Cerrahpaşa Bilgisayar MühendisliğiBölümü’ndenDoç.Dr.AtakanKurt’undanışmanlığındaDr.İshakDölek tarafından bir doktora tezi projesi olarak başlayan yerli girişim Osmanlica.com Osmanlıca kaynakların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde yüzde 96’lık bir başarı elde etti. Osmanlı arşiv ve kütüphanelerindeki her türlü kaynağı Osmanlıca OCR, Osmanlıca-Türkçe Alfabe Çevirisi ve Osmanlıca-Türkçe Dil Çevirisi olmak üzere üç adımda günümüz Türkçesine aktarmak amacıyla bir doktora tezi olarak başlayan “Osmanlica.com:Yapay ZekaDestekliOsmanlıca-TürkçeUçtan-UcaAktarım” projesi, sonrasında Avcılar Kampüsündeki Entertech Teknokent A.Ş. aracılığı ile TÜBİTAK 1512 girişim destekleme programına kabul edildi. Girişimciler Mina ARGE Bilişim Ltd. Şti. adı altında şirketleşerek projenin ilk adımı olan OCR projesini geliştirdiler. OCR projesini başarıyla tamamlayan MinaARGE, halen bu projenin devam niteliğindeki Osmanlıca Türkçe Alfabe Çevirisi projesini KOSGEB ve TÜBİTAK’tan aldığı destekle geliştiriyor. Alfabe çevirisi projesinde halihazırda yüzde 75doğrulukoranınaerişen şirket,buuygulamadayüzde95’likbirdoğrulukoranı elde etmek için ARGE faaliyetlerine bilgisayar, dil, edebiyat ve tarihçilerden oluşan bir grup ile devam ediyor.

“Osmanlıca OCR’da yüzde 96 oranında başarı elde edildi”

Osmanlıca dokümanların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde yüzde 96doğrulukoranınaulaştıklarınıbelirtenDoç. Dr. Atakan Kurt şu açıklamalarda bulundu: “Yurt içi ve dışındaki devlet arşivleri, kütüphane ve özel koleksiyonlarda yüzbinlerce Osmanlıca kitap, gazete, dergi ve belge bulunuyor. Bu kadar belgenin insan eliyle manuel olarak Türkçeye çevrilmesi pratik olarak mümkün değil. Bilgi teknolojilerinde ve yapay zekada son zamanlarda büyük ilerlemeler oldu. Bu sayede daha önce çözülmesi mümkün olmayan problemler yeni gelişmeler ışığında çözülebiliyor. Biz bu yeni teknolojileri Osmanlı arşiv ve kütüphanelerindeki belgelerin günümüz Türkçesine aktarılması için adapte ediyoruz. OCR ve alfabe çevirisi aşamalarında gözle görülür önemli başarılar elde ettik. Batı ülkelerinde büyük oranda çözülmüş olan bu problem ülkemizde henüz çözülemedi. Amacımız Osmanlıca kitap, dergi, gazete ve arşiv belgelerinin günümüz Türkçesine çevrilerek sıradan insanlar ve özellikle yeni nesil tarafından okunabilmesi ve anlaşılabilmesini sağlamak ve şimdiye kadar belki de hiç incelenmemiş veya okunmamış belgeleri gün yüzüne çıkararak tarihe ışık tutulması için gerekli yazılımları geliştirmektir. Bize göre bu proje Türkiye’nin sosyal bilimlerde vizyon projesi olmaya aday bir projedir. Bu proje ile yüzbinlerce kitap, dergi, gazete ve milyonlarca arşiv belgesi günümüz Türkçesine hızlı bir şekilde aktarılabilecektir.” Osmanlıca belgelerin günümüz Türkçesine çevrilmesi için birden fazla çalışma yürüttüklerini söyleyen Dr. İshak Dölek ise “Osmanlıca OCR işleminin yanı sıra Osmanlıca-Türkçe alfabe çevirisi, Osmanlıcadan günümüz Türkçesine dil çevirisi, rika OCR yani Osmanlıca el yazısının OCR ile resimden metne dönüştürülmesi gibi diğer projelerde de çalışmaların devam ettiğini” söyledi ve “Örneğin Arapça tabanlı Osmanlı alfabesindeki Osmanlıca bir metni Latin tabanlı Türk alfabesine dönüştüren alfabe çevirisinde yüzde 75’lik bir doğruluk oranına eriştik. Alfabe çevirisi uygulamamız halen internette hizmet veren tek uygulamadır” dedi.

“Alfabe çevirisini 3 bin kelime ve 23bin harften oluşan veri kümesiyle test ettiler”

Dölek açıklamasının devamında, “Osmanlıca nesih hattında yazılmış 21 sayfa 3 bin kelime ve 23 bin harften oluşan orijinal bir Osmanlıca veri seti ile test edilen OCR uygulamasında yüzde 96 başarı elde ettik. Yani her 100 adet harfin 96 tanesi uygulama tarafından doğru olarak tanındı ki bu şimdiye kadar elde edilmiş en yüksek doğruluk oranı oldu. Bu testlerde uygulamamızı dördü yurt dışından birisi yurt içinden olmak üzere beş farklı OCR uygulamasıyla karşılaştırdık ve sonuçları uluslararası bir konferansta bildiri ve dergide makale şeklinde yayınladık. Ar-Ge faaliyetlerine devam ettiğimiz uygulamamızın sosyal bilimlerde yapacağı katkıdan dolayı mutluyuz. Şu ana kadar Osmanlica.com adresindeki OCR uygulamamızı 20bindenfazla, alfabe çevirisi uygulamamızı da 100 binden fazla kullanıcı denedi. Bu sayılar her gün artmaya devam ediyor. Bu durum bizi daha da motive ediyor” ifadelerini kullandı

* Tüm hakları saklıdır. Bu sitede yer alan yazı, haber, fotoğraf, video ve sair dokümanların, bireysel kullanım dışında izin alınmadan kısmen veya tamamen kopyalanması, çoğaltılması, kullanılması, yayımlanması ve dağıtılması kesinlikle yasaktır. Bu yasağa uymayanlar hakkında 5846 sayılı Fikir ve Sanat Eserleri Kanunu uyarınca yasal işlem yapılacaktır.