Computational Narratology

Veri Seti v7: Altı Altın Kural'ın Tespitine Dair Bir Süreç Notu

Her sahnenin hangi kurallara uyduğunu işaretleyen şeffaf bir tespit hattı, makine-okunabilir atıf altyapısı ve tam-metin metodoloji makaleleri.

Objective Projection veri setinin v7 sürümü, metodolojiyi bir iddia olmaktan çıkarıp denetlenebilir bir yapıya taşıyan üç parça ekledim: her sahnenin hangi kurallara uyduğunu işaretleyen şeffaf bir tespit hattı, makine-okunabilir atıf altyapısı ve tam-metin metodoloji makaleleri. Bu not, neden bu yolu seçtiğimi ve hangi dürüst sınırları açıkça beyan ettiğimi anlatıyor.

Sorun: "Etiketi sildim, demek ki uyumluyum" yanılgısı

Objective Projection altı kural üzerine kurulu: Duygu Ambargosu, Benzetme Yasağı, Maddeleşen Metaforlar, Mikro Odak (Ng), Zamansal Çapa, Atmosfer Çelişkisi. Bir veri setinin "bu kurallara uyuyor" demesi kolay; bunu kanıtlaması zor. v7'ye kadar, 500 sahnelik korpusun her birinin hangi kurallara uyduğu okuyucunun gözüne ve güvenine kalıyordu. Bu, akademik bir kayıt için yeterli değil.

Çözüm: deterministik, kural-tabanlı, açık bir tespit hattı

v7 ile her sahneye bir applied_rules bloğu eklendi. Bu bloğu üreten şey bir dil modeli (LLM-as-judge) değil — apply_rules.py adlı, tek dosyalık, bağımlılıksız, kelime-sınırı eşleştirmesi yapan bir Python betiği. Bunu bilinçli seçtik:

Tekrarlanabilir. Depoyu klonla, betiği çalıştır, birebir aynı çıktıyı al. Bir LLM yargıcının aksine, sonuç rastgele değişmez.
Denetlenebilir. Her kuralın hangi kalıplara baktığı betiğin içinde açıkça yazılı. Bir araştırmacı belirli bir kararı görebilir, eşikleri değiştirebilir veya bir tespite itiraz edebilir.
Şeffaf. Kara kutu yok. Tespit mantığının tamamı okunabilir durumda.

Her applied_rules bloğu altı boolean bayrak, bir active_count, primary_rule, detection_method ve doctrine_version taşır. Mevcut hiçbir alan değiştirilmedi, yeniden adlandırılmadı veya silinmedi — yalnızca eklendi.

Dürüst sınır beyanı: kuralların güvenilirliği eşit değil

İşte bu sürümün en önemli kısmı, ve çoğu veri setinin sakladığı şey. Kural-tabanlı bir denetleyici, tasarımı gereği kör bir alettir. Hedef çıktılar üzerindeki tespit oranları kurala göre değişir:

Yüksek güvenilirlik (%95+): Benzetme Yasağı ve Duygu Ambargosu — deterministik sözlük eşleştirmesi.
Orta güvenilirlik (%60–80): Zamansal Çapa, Maddeleşen Metaforlar, Mikro Odak — yapısal/sezgisel kalıplar.
Bilinçli olarak muhafazakâr (~%10): Atmosfer Çelişkisi.

Son satır kasıtlı. Atmosfer Çelişkisi, regex'in güvenilir biçimde göremeyeceği anlamsal bir yazarlık tercihidir. Bu yüzden hattı yanlış-pozitif yerine yanlış-negatif verecek şekilde ayarladık: kuralı yanlışlıkla "var" demektense atlamayı tercih eder. Sebep basit — veri setinin pozitif etiketlerinin güvenilir kalması, kapsama oranından daha önemli. Bir peer reviewer için bu bir zayıflık değil, güç işaretidir.

Yanında gelen atıf altyapısı

CITATION.cff — Citation File Format v1.2.0. Hugging Face, GitHub ve Zenodo bu dosyayı tanır ve otomatik bir "Cite this dataset" düğmesi sunar. Birincil HF DOI'si (10.57967/hf/8960) ve Zenodo arşiv DOI'si (10.5281/zenodo.19511369) ile mimari çerçeve ve Sₙ pilot raporuna çapraz referanslar içerir.
academic/ altında iki tam-metin makale: kısa-form metodoloji makalesi (Beyond the Cortical Label) ve Sₙ pilot raporu (10.5281/zenodo.20362901).

Özet

v7, yeni sahne eklemekle ilgili değildi. Mevcut 500 sahnenin kanıtlanabilir hale gelmesiyle ilgiliydi. Bir metodolojinin "literatür bir his değil, bir fizik" iddiasını ciddiye almasını istiyorsanız, o iddianın denetlenebilir, tekrarlanabilir ve dürüstçe sınırlandırılmış olması gerekir. v7 bunu hedefledi.

Veri seti: huggingface.co/datasets/leventbulut/objective-projection · DOI: 10.57967/hf/8960 · Tam teknik makale: huggingface.co/blog/leventbulut/objective-projection