3 Şubat 2014

Ham veriye açık erişim

[caption id="attachment_12082" align="alignright" width="212"]Açık Erişim simgesi Şekil 1. Açık erişimin simgesi[/caption]

Bilimsel araştırmaların kalitesini artırma, mevcut araştırmaların yeniden kullanılmasını sağlama potansiyeli sunan ham veriye açık erişim fırsatının önünde artık büyük engeller yok.

“Açık erişim yalnızca ilk adımdı.”
Emma Ganley, PLoS Biology kıdemli editörü


 Geçen ay açık erişimli dergilerin yayın niteliğinden -övgüyle- bahsetmiştim. Ama bitmedi. Açık erişim yalnızca bilimsel makalelerin herkese erişimini sağlamakla kalmıyor, aynı zamanda araştırmaların ham verilerinin herkese açılmasına ön ayak oluyor. Bu yazıda bunun neden önemli olduğunu açıklamaya çalışıyorum.

 “Ham” veri nedir?


Bir araştırmada elde edilen verilerin analiz edilmeden önceki haline “ham” veri diyoruz.

Meselâ bu sayımızda yazarımız Tevfik Uyar’ın astrologların kehanetleri üzerine yaptığı bir araştırmayı yayınlıyoruz. Bu araştırma için Tevfik’in hazırladığı ankete birçok kişi cevap verdi. İşte bu cevapların tümü, araştırmanın ham verisidir. Bundan sonra bu verilerle yapılan hesaplamalar ise verilerin analizidir.

Şekil 2’deki örnek ise kendi deneylerimden... Şekil 2A’da sinek beyninden boyanmış bir kesit var. Bu görüntü, mavi lazer kullanarak, bir mikroskopa bağlı dijital kamera ile çekildi. Şekil 2B’deki görüntü ise aynı kesitten, ama yeşil lazerle elde edildi. Bu iki görüntü, dokunulmamış, ham veridir.

[caption id="attachment_12408" align="aligncenter" width="487"]Şekil 2. Ham veri ve üst-veri Şekil 2. (A ve B) Boyanmış sinek beyni kesitlerinden elde edilmiş ham veriler. (C) A ve B'deki görüntülerin birleştirilmesiyle elde edilmiş bir görüntü. (Ç) A ve B'deki görüntülerin elde edildiği ayarları gösteren üst-veri (Mikroskop görüntüleri: Ç. Yalgın ve H. T. Jacobs)[/caption]

Şekil 2C’de ise A ve B’deki görüntülerin farklı renklerde birleştirilmesiyle oluşturulmuş yeni bir görüntü var. Bunu, önceki iki görüntüyü mukayese edebilmek için yaptım, bu şekilde verilerimi analiz ettim. Bu bir analizdir, ham veri değildir.

Ancak ham veri kendi başına bir anlam taşımaz, hangi yöntemlerle elde edildiği çok önemlidir. Şekil 2Ç’deki metin bu yöntemlerin bir parçası: Şekil 2A ve B’deki görüntülerin tam olarak hangi ayarlarla çekildiğini gösteriyor. Mikroskoba bağlı bilgisayarın görüntüye kendiliğinden iliştirdiği bu bilgilere genel olarak üst-veri (meta data) diyoruz.

“Ham veri”nin faydaları


Bu tür verileri bilim insanları eskiden isteseler de paylaşamıyorlardı. Çünkü basılı akademik dergilerde yer sınırlıydı ve bütün bu bilgileri oraya sıkıştırmak mümkün değildi.

Ama devir değişti. Yeni birçok salt çevrimiçi akademik dergi çıktı. Üstelik basılı dergiler de zaten daha çok internet sitelerinden okunuyor, ve basılı makalelerin ana metinlerine ek olarak çeşitli dosyalar, videolar kolayca sunulabiliyor. Yani sonuçların yanı sıra ham verilerin de sunulması için gerekli altyapı hazır.

İyi de niye sunulsun bu veriler? Bunun birkaç sebebi var:

İlk sebep makaledeki sonuçların doğrulanması: Makalede verilen ham verileri, tarif edilen yöntemlerle analiz ettiğimde ben de yazarlarla aynı sonuca ulaşmalıyım. Bu durum öncelikle yazarların ham verileri uygun değil de işlerine gelen yöntemlerle analiz etmelerini önleyecektir. Zira verilere uyguladıkları işlemler çok daha saydam olacak, başkalarınca denetlenebilecek, sorgulanabilecektir.

Ayrıca, araştırmacılar doğru analizi yaparken bir hata yapmış olabilir. Ham verilere başkalarının erişimi bu hataların ortaya çıkmasına katkıda bulunacaktır.

İkinci sebep, yeniden kullanılabilirlik: Verilere erişebilenler, aynı verileri başka bir açıdan inceleyebilir. Belki de araştırmacılar verilerindeki ilginç bir şeyleri gözden kaçırmışlardır. Ya da uzmanı olmadıkları bilim dalına ait bir bilgiyi görememişlerdir. Bunun sonucunda aynı verilerden, yeni deney yapmadan yeni bilgiler ortaya çıkarılabilir.

Ayrıca ham verilerin sunumuyla araştırmaların birbiriyle birleştirilmesi, mukayesesi daha kolay olacaktır. Bu, özellikle klinik araştırmalar için geçerlidir. Günümüzde birçok hastalık ve tedavileri üzerine irili ufaklı klinik araştırmalar yapılıyor. Bunların bazıları çok küçük hasta sayısına sahip olduğundan istatistik analizler için yetersiz kalıyor. Cochrane gibi bilimsel işbirlikleri, bu irili ufaklı araştırmaları, yöntem kalitesini de göz önüne alarak birleştiriyor. Bunun için en iyi yol, her çalışmanın, her bir denekten gelen veriyi olduğu gibi aktarması, gerektiğinde farklı araştırmalardan gelen bu verilerin birleştirilmesi olacak.

Engeller, itirazlar


İş klinik çalışmalara gelince biraz karışıyor. Bu tür araştırmalarda ham veri dediğimiz aslında bir insanın sağlık durumuyla ilgili, yani mahrem bilgiler. Özel hayatın gizliliği ilkesi bir yana, kötü ellere geçerse suistimal edilebilecek bilgiler bunlar. Meselâ bir kişinin AIDS hastası olduğunun herkesçe bilinmesi, dışlanmasına yol açabilir. Ya da bir kişinin bir hastalığa kalıtsal yatkınlık taşıdığının ortaya çıkması, uygun şartlarla sağlık sigortası yaptıramamasına sebep olabilir. Bu soruna kafa yoranlar, ham verilerdeki kimlik bilgilerinin mümkün olduğunca ayıklanmasını, ek olarak bunlara erişimin ancak bunun için izin alacak araştırmacılarla sınırlandırılmasını savunuyorlar. Bu, makul bir itiraz.

Ama tek sorun bu değil, bazıları başka sebeplerle de ham veriyi paylaşmaya ayak diriyor. Görünürde bunun ilk sebebi şu: Büyük emekle elde ettikleri ham verilerden yalnızca kendileri yayın çıkarmak istiyorlar. Bu da makul sayılabilir, ama abartmamak şartıyla: Meselâ klinik bir deney yaptıysanız, yani insanlar bilimin gelişmesi, ileride kendileri gibi hastaların tedavi edilebilmesi için fedakarlık yaparak denek olmayı kabul ettiyse, bu insanlardan elde edilen verileri makul bir sürede erişime açmak ahlâki bir borçtur.

Kolayca itiraf edilmeyecek diğer bir sebep ise, önceden değindiğim denetlenebilirlik. Denetleyen için bir avantaj olan bu ilke, denetlenen için bir sıkıntı kaynağı: “Ya bir hatamı bulurlarsa? Ya rezil olursam?” Bunun için de herkesin doğru analiz yapamayıp bazılarının verileri saptıracağı, hattâ her araştırmanın kendine göre nüanslarını başkalarının aynen tekrar edemeyeceği gibi itirazlar geliyor. Bunlardan ilkinde bir haklılık payı var, ama denetlenebilirliğin faydaları bu riskleri çok aşıyor. İkincisini ise yalnızca bir bahane olarak görüyorum, çünkü araştırmaların başkalarınca tekrarlanabilecek şekilde yapılması ve duyurulması önemli bir ilkedir.

Bu isteksizliğin üstesinden nasıl gelinir? Bunun cevabı ufukta beliriyor. Ham verilerin yayınlanması, hem araştırma ödeneği veren kurumların, hem de araştırmayı yayınlayacak, özellikle yüksek etkili dergilerin aradığı bir şart haline geliyor. Araştırmacıların en çekindiği bu iki güç, ham veri erişimine ivme kazandıracaktır.

Verinin biçimi önemli


Özellikle açık erişimli dergiler, ham verileri yayınlamaya gönüllü... Bir diğer seçenek de sanal veri depoları. Bu hizmeti veren şirketler ve kamu kurumları halihazırda mevcut.

Ama verinin nerede depolanacağı kadar ne şekilde depolanacağı da önemli. En basitinden, bir çizelgeyi bir PDF yerine Excel dosyasında sunmak, kullanılabilirliğini artırıyor. Genler, proteinler, mikroskop görüntüleri ve diğer bilimsel veri çeşitlerinin, yeniden-kullanılabilirliğini artıracak standartlara göre depolanması gerekli. Bu standartların üst-verileri de kapsaması, verilerin yeniden kullanılabilirliğini çok artıracaktır. Bu standartlaştırma için özellikle Amerika Birleşik Devletleri’nin kamu bilim kurumlarının ön ayak olduğunu görüyoruz.

Sonuç


Ham verinin herkese açılmasının faydaları büyük, riskleri bertaraf edilebilir. Bunu sağlayabilecek teknolojik imkânlar artık mevcut, ve bilim dünyası da kendini buna uydurmaya başladı.

 Kaynaklar