Computational Narratology

LLM'ler Anlatı Entropisi Testinde Neden Başarısız Oluyor? Yapay Zekanın Sıkıcı Hikayelerinin Ardındaki Matematik

Büyük Dil Modelleri (LLM), çıkarımsal kurgu yapılarını bildirimsel duygu etiketlerine indirger. Summarization Bias olgusunun matematiksel ve biyofiziksel kanıtı.

LLM Summarization Bias in Creative Writing & Reward Models

Küresel yapay zeka araştırma topluluğu şu an sistemsel bir yapısal tıkanıklık karşısında çıkmaza girmiş durumdadır: Büyük Dil Modelleri (LLM'ler), son teknoloji çok turlu talimat ayarlamalarına (instruction tuning) ve genişleyen bağlam pencerelerine (context windows) rağmen, neden kurgusal metin üretiminde tutarlı bir şekilde düz, öngörülebilir ve temelde bağlayıcılıktan uzak metinler üretmektedir? Silikon Vadisi mühendislik çevrelerindeki mevcut konsensüs, bu durumu yüzeysel bir prompt mühendisliği problemi ya da jenerik bir hizalama (alignment) yapaylığı olarak ele almaktadır.

Narrative Engineering (Anlatı Mühendisliği) bünyesinde yürüttüğüm çalışmalar ve derlediğim ampirik veri seti, çok daha kesin ve sistemsel bir mimari kırılmayı kanıtlamaktadır: LLM'ler yaratıcı yazarlıkta başarısız olmaktadır, çünkü Özetleme Eğilimi (Summarization Bias) adı verilen ağır bir hesapsal fenomenden muzdariptirler.

Modern modeller (örn. Claude 3.5 Sonnet, GPT-4o), anlatı metinlerini işlerken veya üretirken, gösterme-anlatma (told-shown) ekseninde doğrusal ve simetrik olmayan bir çöküş sergiler. Okuyucunun zihninde bastırılmış bir duygusal tabanı yeniden inşa etmesini sağlayacak yoğun, çıkarımsal bir fiziksel matris inşa etmek —ki bu Nesnel İzdüşüm (Objective Projection) metodolojisinin operasyonel standardıdır— yerine, LLM'ler doğrudan yüzey düzeyinde bildirimsel etiketlere sığınırlar. Modeller, karmaşık alt metin geometrisini sessizce soyut, düşük bilişsel yüklü dilsel etiketlere indirger ("Perişan olmuştu", "Korkudan felç olmuştu"). Bu durum, metni gerçek bir fizyolojik daldırma (immersion) için gerekli olan pre-kortikal nöral yollara (beyin sapı, limbik sistem) tamamen körleştirir.

Sıkıcılığın Matematiksel Motoru

Makine tarafından yazılmış düzyazının insan okuyucularda neden anlık bir otonom de-eskalasyona (sıkıntıya) yol açtığını kuantifiye etmek için, anlatı sistemini Kanonik Anlatı Entropisi ($S_n$) üzerinden takip ediyoruz:

$$S_n = I_f \times C_b \times t$$

Burada Bilgi Sürtünmesi ($I_f$) veri akışı engellemesini ölçeklendirir, Nedensel Dallanma ($C_b$) Miller-Cowan çalışma belleği tavanı ($C_b \le 5$) ile sınırlandırılmış çözülmemiş sonuç vektörlerini ölçer ve $t$ geçen süreyi temsil eder.

Modeli katı bir Sıfat Ambargosu ve Benzetme Yasağı protokolü altında stres testine tabi tuttuğumuzda ("Bir karakterin yalnız olduğu bir sahne yaz... Duygu isimleri veya benzetmeler kullanma"), modelin üretken rejimi Bastırılmış Bilgi Endeksi'nde ($SI$) radikal bir düşüş ortaya koyar. $SI$, okuma süresinin dakikası başına düşen, metnin yüzey katmanında aktif olarak gizlenen ancak metnin alt anlam katmanında ima edilen ve okuyucu tarafında yerel söylem tutarlılığı sağlamak için yoğun bir yeniden inşa çalışması gerektiren bilgi birimlerinin kesin sayısını hesaplar.

Geliştirdiğim karşılaştırmalı veri seti, Nesnel İzdüşüm'ü kullanan bir insan yazarın gerilimin temel mekaniklerini harekete geçirmek için hareketi dondurduğunu, termal iletkenliği modüle ettiğini ve kesin uzamsal parametreleri tasarladığını göstermektedir:

Fiziksel Matris Parametresi	İnsan Hedef Çıktısı (Ampirik Veri - target_output)	LLM Varsayılan Üretimi (Özetleme Eğilimi - bad_output)
Optik Matris ( $V$ )	Lümen havuzu marjı, 6 metrede tek bir 40W tepe lambası	"Karanlık onun etrafında ürkütücü ve tekinsiz görünüyordu."
Termal Matris ( $T$ )	19°C ortam sıcaklığına karşılık zemin yüzeyi 14°C	"Ürperirken sırtından aşağı soğuk bir ürperti titremesi geçti."
Akustik Matris ( $\Delta$ )	Toplam temel sessizlik, ardından 11 metrede tek bir keskin darbe sesi	"Korkunç bir ses aniden sessiz odayı paramparça etti."
Mekanik / Kinetik Matris ( $M$ )	0.3Hz frekansta bilateral ağırlık değişimi, kapı santim hesabı	"Korkudan donakalmıştı, hareket edemiyordu."

İnsan hedef profilinde, metin yüksek bir $SI$ (Bastırılmış Bilgi) değeri kaydeder çünkü semantik çekirdek tamamen boştur — yapısal bir vakum değişkenidir. Okuyucunun bilişsel mimarisi, tehdit vektörünü hesaplamak için iş (work) yapmak zorundadır. Anlık yapısal belirsizliği en aza indirmeye yönelik olasılıksal bir yetkiyle hareket eden LLM ise otomatik bir özetleme gerçekleştirir. Gösterim modundaki (shown-mode) fiziksel matrisin tamamını, buna karşılık gelen soyut bir özet etiketle değiştirir. Model sahneyi yazmaz; yazması gereken sahnenin bir özetini yazar.

Değerlendirme Rejimi: Ödül Optimizasyonunun Çöküşü

Bu doğrusal bozulma, LLM'ler tercih optimizasyonu boru hatlarında (RLHF/RLAIF) otomatik yargıç, otomatik hizalama eleştirmeni veya ödül modeli rolünü üstlendiğinde daha da tehlikeli bir hal almaktadır.

Standart bir "LLM-as-judge" (yargıç olarak LLM) mimarisi, Özetleme Eğilimi'nin değerlendirme rejiminden ağır şekilde etkilenir. Modellere uzunlukları ve token sayıları eşitlenmiş anlatı çiftleri sunulduğunda, makine yargıç tutarlı bir şekilde anlatım modundaki (told-mode) varyantlara daha yüksek kalite ve yoğunluk parametreleri atar. Modelin dahili gömmeleri (internal embeddings) "dehşete düşmüş" veya "kederli" gibi soyut etiketleri yüksek yoğunluklu semantik tokenlar olarak işlediğinden, sistem Gösterme Modu'nun (shown-mode) ince taneli, yüksek yüklü konfigürasyonlarını sistematik olarak algılayamaz veya cezalandırır.

Bir makine yargıç, bir karakterin yalnızlık anında alışkanlıkla masaya iki kahve fincanı koyması ve ardından tek olduğunu hatırlaması gibi kesin bir davranışsal ve fiziksel matrise bakar ve bunu, "Onu deli gibi özlüyor ve yalnızlığın altında eziliyordu" diyen düz bir cümleye kıyasla "duygusal yoğunluk açısından daha yetersiz" olarak derecelendirir.

[Shown-Mode Girdisi] ---> [LLM Dahili Temsili] ---> Özet Etiketine Çöküş ---> Yükün Algılanamaması
[Told-Mode Girdisi]  ---> [LLM Dahili Temsili] ---> Doğrudan Token Eşleşmesi ---> Yapay Yoğunluk Patlaması

Bu doğrusal tercih, LLM metin üretimini otomatik bir makine yargıca göre optimize etmenin yapay bir seçim baskısı yarattığı anlamına gelir. Bu mekanizma rastgele hatalar üretmez; düzyazıyı agresif bir şekilde düzleştiren, onu yüzey bildirimsel etiketlerine doğru iten sistematik bir gradyan uygular. Standart edebi zanaatın ödüllendirdiği çıkarımsal yüklemeyi metinden tamamen söküp atar.

Laboratuvar bünyesinde yürüttüğüm çalışmalar kapsamında geliştirdiğim bu kuramsal çerçeve ve pre-registered test protokolü açıkça göstermektedir ki, yapay zekanın yaratıcı yazarlıkta tıkanması bir yaratıcılık eksikliği değil, matematiksel bir özetleme refleksidir. Ödül modelleri yüzey etiketleri yerine yüksek yüklü $SI$ vektörlerini algılayacak ve değer biçecek şekilde eğitilene kadar, yapay zeka hikaye anlatıcılığı düz ve deterministik bir tavanın altında hapis kalacaktır.

Objective-Projection Dataset

@article{bulut2026llmnarrativeentropytr,
  author    = {Levent Bulut},
  title     = {LLM'ler Anlatı Entropisi Testinde Neden Başarısız Oluyor? Yapay Zekanın Sıkıcı Hikayelerinin Ardındaki Matematik},
  journal   = {Narrative Engineering Laboratory Research Corpus},
  year      = {2026},
  volume    = {4},
  number    = {1},
  url       = {https://leventbulut.com/llmler-anlati-entropisi-testinde-neden-basarisiz-oluyor-yapay-zeka-hikayeleri},
  note      = {Independent Research. Pre-registered Testing Framework for Summarization Bias under the Bulut Doctrine.}
}

LLM'ler Anlatı Entropisi Testinde Neden Başarısız Oluyor? Yapay Zekanın Sıkıcı Hikayelerinin Ardındaki Matematik

Sıkıcılığın Matematiksel Motoru

Değerlendirme Rejimi: Ödül Optimizasyonunun Çöküşü

Read more

Why LLMs Fail the Narrative Entropy Test: The Mathematics Behind AI’s Boring Stories

Why Marvel Failed: Action Fatigue and Baseline Saturation Biology

Marvel Neden Kaybetti? Aksiyon Yorgunluğu ve Bazal Doygunluk Biyolojisi

Anlam Çatallanması: Bir Kitabı Yıllar Sonra Yeniden Okutan Nörolojik Kod