Underlag: 40 dokument i p90, 38 dokument i p10
(av dessa har 40 respektive
38 annoterad text för ord-analysen).
"Skillnad" i tabellerna ovan är översatt från Cohen's d med tröskelvärdena 0.2 (liten),
0.5 (medel) och 0.8 (stor). Standardvärden för effektstorlek (Cohen 1988).
Längd-justering. Dokumenten delas i tre lika stora grupper efter ord-antal:
kort (under 1207 ord),
mid (upp till 2139 ord),
och lång (resten). Cohen's d beräknas inom varje längd-grupp och poolas via inverse-variance
weighting (analog med fixed-effect meta-analysis av Hedges g). Detta neutraliserar
längd-confound som annars uppstår när rankningen på E4 Värde är systematiskt
längd-stratifierad. Se docs/length-bias-audit-2026-06-05.md för bakgrund.
Ord-jämförelsen använder log-odds-ratio med Dirichlet-prior
(Monroe, Colaresi och Quinn 2008). En statistisk metod som visar vilka ord som
är överrepresenterade i en grupp jämfört med en annan. Visas endast ord som
förekommer i minst 10 dokument totalt och som är
innehållsord (substantiv, verb, adjektiv, egennamn). Ord-räkningen är per-dokument
förekomst, inte total frekvens (annotated/-format ger unika lemman per dok). Lexikal
differential är INTE längd-justerad i nuvarande version.
Kvarstående bias. Per length-bias-audit 2026-06-05 har STA7- och
DNA-rå-scores i baseline_scores.csv stark längd-korrelation (canvas_compound ρ=+0.774,
nom_total ρ=+0.850). Detta är drift mellan baseline-CSV och density-versionerna i
deep_scoring.py och åtgärdas separat. Stratifieringen ovan hanterar konsekvensen i
cross-dim-tabellen men löser inte grundorsaken.
Underlaget är genererat
2026-06-05
mot frusen baseline. Vid förändringar i scoring eller korpus måste underlaget regenereras.