Veri Seti v7.2: Pattern F Boşluğu Kapandı, Hard Negatives Genişledi
Bu bir bakım ve genişletme sürümü. Yeni bir iddia değil — korpusu daha eksiksiz ve kendi içinde daha tutarlı hâle getirmekle ilgili. Bir araştırma arşivinin asıl işi de budur: gösterişli olmayan, ama sözünü tutan iş.
v7.1'i yayınlarken kendi verimde bir boşluğu açıkça beyan etmiştim: Pattern F'in saf örneği yoktu. Bu sürüm o boşluğu kapatıyor, ikinci bir hard negatives partisi ekliyor ve veri setinin DOI kaydını tamamlıyor. Hiçbiri çığır açan bir şey değil; abartmadan, olduğu gibi anlatmayı tercih ederim.
Pattern F boşluğu kapandı
Pattern F — "Sıradan Yan Yaşam" — Atmosfer Çelişkisi kuralının (Bulut Doktrini'nin 6. Kuralı) altı alt-örüntüsünden biri. Sahnenin duygusunu kıran detayın, kendi sıradan hayatını yaşayan, karakterin krizine kayıtsız bir insan olduğu durum: hayatını değiştirecek bir telefonu beklerken halısını silkeleyen komşu, hastane bekleme salonunda sandviçinin domatesini ayıklayan bir çocuk.
v7.1'de Pattern F'i tanımlamış ama açıkça beyan etmiştim: 500 sahnelik korpusta bunun saf örneği sıfırdı — yalnızca hard negative target çıktılarının içinde yaşıyordu. Saf pozitif örneği olmayan bir örüntü, veri değil, sadece bir tanımdır.
v7.2 on saf Pattern F sahnesi ekliyor (pattern_F_pure_corpus_batch1.jsonl, beş Türkçe + beş İngilizce, pf_001–pf_010), on farklı duygu kategorisinde. Her sahne, Pattern F'i komşu örüntülerden ayıran beş kriterli yapısal imzayı uyguluyor: detayın ana karakterin eyleminden bağımsız olması, mesleki rol değil sıradan gündelik hayat olması (Pattern B'den ayıran şey budur), metaforik yükünün sıfır olması, sahne ile detayın stake'inin orantısız olması, ve detayın karakterle etkileşmeden gelip geçmesi.
Burada kesin olmak istiyorum: bu on sahne imzayı uyguluyor — beş kriteri sağlayacak şekilde kuruldular. Bu, imzayı doğrulamakla aynı şey değil. Doğrulama, kriterlerin benim yazmadığım sahnelerde Pattern F'i komşu örüntülerden güvenilir biçimde ayırıp ayırmadığını test etmeyi gerektirir. O doğrulama hâlâ açık. v7.2'nin kapattığı şey, temiz pozitif örneklerin yokluğu; tek başına tipolojinin doğru olduğunu kanıtlamıyor.
Hard Negatives Batch 2
Hard negatives korpusu, standart korpusta eğitilmiş modellerde sürekli gördüğüm bir başarısızlık modunu hedefliyor: "duygu etiketini kaldırdım, demek ki uyumluyum" kestirmesi. Model "korktu" ve "kafes gibi" demeyi bırakmayı öğreniyor, sonra aynı duyguyu zarflara, sahte-nesnel sayılara, yedi maddelik klişe envanterine ya da çelişmek yerine pekiştiren atmosfere taşıyor. Batch 1 beş örüntüyü beş kategoride kapsıyordu.
Batch 2 aynı beş ihlal türünü beş yeni kategoriye taşıyor: utanç (klişe envanteri), kararlılık (sahte-nesnel sayı), hayranlık (gizli benzetme), pişmanlık (duygu yüklü zarf), kıskançlık (atmosfer pekiştirme). On yeni sahne, Türkçe ve İngilizce paralel, Batch 1 ile aynı şema. Her birinde load_bearing_elements var — bir düzenleme işleminden sağ çıkması gereken açık metin parçaları, çünkü bir modelin OP-uyumlu sahneyi bozmasının en yaygın yolu onu "sadeleştirip" işi yapan detayı silmesidir. Bu silme, summarization bias'ın doğrudan metodolojiye karşı çalışmasıdır.
Korpus hâlâ bilinçli olarak küçük — toplam yirmi hard negative. Bunları doğru üretmek pahalı; her biri için "az daha başarısız olan" bir kötü çıktı ve "az daha başaran" bir hedef çıktı gerekiyor. İki yüz gevşek örnek yerine yirmi keskin örnek tercih ederim.
Şeffaflık notu
İki dürüst beyan, çünkü metodoloji denetlenebilir olmak zorunda.
Birincisi, Pattern F sahneleri stabil v7.1 şemasının parçası olmayan iki deneysel alan taşıyor (pattern_F_signature ve atmosfer_celiskisi_pattern). Kimse bunları yerleşik yapı sanmasın diye schema_extension: "v8-alpha" olarak işaretlendiler. Elle etiketlendiler (annotation_method: "manual_pattern_F_v1"), kural-tabanlı pipeline ile değil — apply_rules.py atmosfer çelişkisini yalnızca ~%9.8 güvenilirlikle yakalıyor ve bunların çoğunu kaçırırdı. Elle etiketleyip bunu söylemek, dürüst olan seçimdi.
İkincisi, veri seti README'sindeki DOI kaydı artık tam: kırk dört Zenodo deposu, Hugging Face birincil DOI'si ve kanonik Narrative Entropy (Sₙ) referansı. Önceki sürümlerde README yalnızca bir alt kümeyi listeliyordu; bu, tam zincirle tutarsızdı. Artık düzeltildi.
Ne için
Buradaki her şey açık lisanslı ve denetlenebilir. Üzerinde eğitir, eleştirir ya da Pattern F tipolojisini bir karşı örnekle kırmaya çalışırsanız, amaç tam olarak budur. Veri seti: huggingface.co/datasets/leventbulut/objective-projection
Sorularınız ve iletişim hakkında Bu çalışmaya gösterilen ilgi beni mutlu ediyor ve gelen her mesajı okuyorum. Ne yazık ki gelen yoğunluk nedeniyle hepsine tek tek yetişemiyorum. İyi haber şu: en sık gelen soruların çoğu metodolojinin ayrıntıları, neden dergide olmadığı, sıradaki adımlar veri setinin README dosyasında ve bu sitedeki yazılarda zaten yanıtlanıyor, çünkü bu çalışmanın tamamı bilerek açık ve denetlenebilir. Bir sorunuz varsa, önce veri setine göz atmanızı öneririm; aradığınız çoğu şey orada, kaynağıyla birlikte duruyor. Yeni gelişmeleri takip etmek için en iyi yer de orası her sürüm önce veri setinde ve burada duyuruluyor. Veri seti: huggingface.co/datasets/leventbulut/objective-projection