Vad skiljer p90 från p10 på STA7 (totalt)?
Jämförelse av STA7 (totalt) mellan dokument i topp-tiondelen (p90) och botten-tiondelen (p10).
Är grupperna olika långa?
p90 har i snitt 2061 ord (median 1790). p10 har i snitt 1115 ord (median 603).
p90-dokument är längre än p10-dokument. Vissa skillnader nedan kan bero på att längre dokument hinner ta upp fler saker, inte att de är bättre eller sämre.
Hur skiljer sig grupperna på andra mått?
Jämför p90 med p10 på andra dimensioner. Värdena är justerade för dokumentlängd, vilket betyder att vi jämför korta dokument mot korta, mellanlånga mot mellanlånga, långa mot långa, och slår sedan ihop resultaten. När den justerade skillnaden är mycket mindre än den ojusterade handlade hela skillnaden om att grupperna var olika långa, inte att innehållet skiljde sig.
| Dimension | Pelare | Skillnad (justerad för längd) | Robust vid bredare tröskel? | Att veta |
|---|---|---|---|---|
| E1 Utmaning | STA7 | mycket högre i p90 | Nej, bara synligt vid p90/p10 | Något av skillnaden var längd-effekt |
| E7 Friktion | STA7 | mycket högre i p90 | Nej, bara synligt vid p90/p10 | Något av skillnaden var längd-effekt |
| E2 Antaganden | STA7 | mycket högre i p90 | Nej, bara synligt vid p90/p10 | Ojusterad och justerad är liknande |
| E6 Förmågor | STA7 | mycket högre i p90 | Ja, fyndet håller även vid q75/q25 | Ojusterad och justerad är liknande |
| E5 Målbilder | STA7 | mycket högre i p90 | Ja, fyndet håller även vid q75/q25 | Ojusterad och justerad är liknande |
| E4 Värde | STA7 | mycket högre i p90 | Nej, bara synligt vid p90/p10 | Ojusterad och justerad är liknande |
| E3 Avsikt | STA7 | mycket högre i p90 | Ja, fyndet håller även vid q75/q25 | Ojusterad och justerad är liknande |
| DNA Driv | DNA | mycket högre i p90 | Nej, bara synligt vid p90/p10 | Ojusterad skillnad var större, mest längd-effekt |
| Substansindex | Övrigt | märkbart högre i p90 | Ja, fyndet håller även vid q75/q25 | Ojusterad och justerad är liknande |
| LUFT (totalt) | LUFT | märkbart högre i p90 | Ja, fyndet håller även vid q75/q25 | Ojusterad och justerad är liknande |
| BLA (totalt) | BLA | märkbart högre i p10 | Nej, bara synligt vid p90/p10 | Ojusterad och justerad är liknande |
| DNA Anatomi | DNA | lite högre i p90 | Ja, fyndet håller även vid q75/q25 | Ojusterad skillnad var större, mest längd-effekt |
| DNA Nomenklatur | DNA | lite högre i p90 | Ja, fyndet håller även vid q75/q25 | Ojusterad skillnad var större, mest längd-effekt |
| Integration | Övrigt | liknar varandra | Nej, bara synligt vid p90/p10 | Ojusterad och justerad är liknande |
Vilka ord används mer av varje grupp?
Ord som förekommer i fler p90-dokument än p10-dokument (eller tvärtom). Räknat per dokument: ett ord räknas en gång oavsett hur ofta det förekommer i samma dokument.
Ord som p90 använder mer
Visar i hur många dokument av 38 ordet förekommer.
- förenkla p90: 30 / p10: 3
- digitalisera p90: 41 / p10: 9
- utmaning p90: 26 / p10: 4
- våga p90: 23 / p10: 3
- växa p90: 17 / p10: 1
- trygghet p90: 27 / p10: 5
- offentlig p90: 29 / p10: 6
- utanförskap p90: 15 / p10: 1
- ekonomisk p90: 23 / p10: 4
- stärka p90: 34 / p10: 8
- viktig p90: 28 / p10: 6
- känna p90: 25 / p10: 5
- avgörande p90: 22 / p10: 4
- leva p90: 19 / p10: 3
- tillväxt p90: 19 / p10: 3
- frigöra p90: 16 / p10: 2
- gammal p90: 16 / p10: 2
- värdera p90: 13 / p10: 1
- innovation p90: 35 / p10: 9
- förbättring p90: 18 / p10: 3
- insats p90: 18 / p10: 3
- tydlig p90: 32 / p10: 8
- stabil p90: 15 / p10: 2
- vardag p90: 29 / p10: 7
- mod p90: 12 / p10: 1
Ord som p10 använder mer
Visar i hur många dokument av 38 ordet förekommer.
- exteren p90: 10 / p10: 20
- policy p90: 4 / p10: 13
- användare p90: 12 / p10: 18
- dokument p90: 12 / p10: 18
- verksamhet p90: 37 / p10: 36
- mål p90: 36 / p10: 32
- riktlinj p90: 7 / p10: 11
- syfte p90: 34 / p10: 30
- processer p90: 4 / p10: 8
- dator p90: 4 / p10: 8
- kommunstyrelse p90: 14 / p10: 16
- fråga p90: 14 / p10: 16
- uppdrag p90: 14 / p10: 16
- dokumentera p90: 3 / p10: 7
- medel p90: 3 / p10: 7
- period p90: 3 / p10: 7
- förvalta p90: 9 / p10: 12
- behov p90: 38 / p10: 32
- styrdokument p90: 12 / p10: 14
- regel p90: 6 / p10: 9
- stad p90: 6 / p10: 9
- underlätta p90: 21 / p10: 20
- ange p90: 10 / p10: 12
- äga p90: 5 / p10: 8
- arbete p90: 35 / p10: 29
Per organisations-typ (är ord-mönstren samma i kommun, region och stat?)
Samma log-odds-ratio-analys som ovan men beräknad separat för varje organisations-typ. Visar om de generella mönstren håller eller om de drivs av en specifik typ. Org-typer med färre än 10 dokument i p90 eller p10 visas inte (otillförlitliga estimat).
Kommun (p90 n=31, p10 n=21)
Mer i p90 (top 10)
- kunskap 24/1
- förenkla 25/2
- utmaning 24/2
- minska 28/3
- digitaliseringsstrategi 44/7
- våga 19/1
- offentlig 25/3
- digitalisera 37/6
- förtroende 16/1
- innovation 32/5
Mer i p10 (top 10)
- kommunstyrelse 14/16
- dokument 10/12
- exteren 7/10
- ange 9/11
- policy 3/7
- stad 6/8
- kommunfullmäktige 24/18
- riktlinj 5/7
- kommunövergripa 5/7
- plan 12/11
Region (p90 n=4, p10 n=3)
Otillräckligt sample för stratifierad analys.
Stat (p90 n=3, p10 n=14)
Otillräckligt sample för stratifierad analys.
Semantisk närhet mellan dokumenten
Använder spaCy-vektorer (300-dim) per dokument och beräknar genomsnittlig cosinus-likhet inom p90 (38 dok), inom p10 (38 dok) och mellan grupperna. Mäter om p90-dokumenten är semantiskt täta (samma temacluster) eller endast lexikalt täta (samma ord, olika tema). Värden 0–1: högre = mer lik.
| Mått | Cosinus-likhet |
|---|---|
| Inom p90 (genomsnitt par-vis) | 0.958 |
| Inom p10 (genomsnitt par-vis) | 0.942 |
| Mellan p90 och p10 | 0.944 |
| Tightness-diff (p90 - mellan) | +0.014 |
Tolkning: positiv tightness-diff betyder att p90-dokumenten är mer lika varandra än de är p10-dokumenten, vilket pekar mot egen semantisk klunga. Nära noll betyder att lexikal skillnad i tabellen ovan inte motsvaras av semantisk separation.
Hur skiljer sig strukturen?
Rubriker, listor, referenser i dokumentet. Justerad för längd som ovan.
| Mått | p90 medel | p10 medel | Skillnad (längd-justerad) |
|---|---|---|---|
| headings_total_per_1k | 0.07 | 0.0 | liknar varandra |
| tables_count_per_1k | 0.02 | 0.02 | liknar varandra |
| list_bullet_count_per_1k | 2.37 | 2.06 | liknar varandra |
| list_numbered_count_per_1k | 1.27 | 1.34 | liknar varandra |
| list_ratio | 0.06 | 0.05 | lite högre i p90 |
| total_references_per_1k | 9.15 | 12.76 | lite högre i p10 |
| ref_legislation_per_1k | 0.16 | 0.08 | lite högre i p10 |
| ref_organizations_per_1k | 0.76 | 0.53 | liknar varandra |
Hur är detta beräknat?
Underlag: 38 dokument i p90, 38 dokument i p10 (av dessa har 38 respektive 38 annoterad text för ord-analysen).
"Skillnad" i tabellerna ovan är översatt från Cohen's d med tröskelvärdena 0.2 (liten), 0.5 (medel) och 0.8 (stor). Standardvärden för effektstorlek (Cohen 1988).
Längd-justering. Dokumenten delas i tre lika stora grupper efter ord-antal:
kort (under 1207 ord),
mid (upp till 2139 ord),
och lång (resten). Cohen's d beräknas inom varje längd-grupp och poolas via inverse-variance
weighting (analog med fixed-effect meta-analysis av Hedges g). Detta neutraliserar
längd-confound som annars uppstår när rankningen på STA7 (totalt) är systematiskt
längd-stratifierad. Se docs/length-bias-audit-2026-06-05.md för bakgrund.
Ord-jämförelsen använder log-odds-ratio med Dirichlet-prior (Monroe, Colaresi och Quinn 2008). En statistisk metod som visar vilka ord som är överrepresenterade i en grupp jämfört med en annan. Visas endast ord som förekommer i minst 10 dokument totalt och som är innehållsord (substantiv, verb, adjektiv, egennamn). Ord-räkningen är per-dokument förekomst, inte total frekvens (annotated/-format ger unika lemman per dok). Lexikal differential är INTE längd-justerad i nuvarande version.
Kvarstående bias. Per length-bias-audit 2026-06-05 har STA7- och DNA-rå-scores i baseline_scores.csv stark längd-korrelation (canvas_compound ρ=+0.774, nom_total ρ=+0.850). Detta är drift mellan baseline-CSV och density-versionerna i deep_scoring.py och åtgärdas separat. Stratifieringen ovan hanterar konsekvensen i cross-dim-tabellen men löser inte grundorsaken.
Underlaget är genererat 2026-06-05 mot frusen baseline. Vid förändringar i scoring eller korpus måste underlaget regenereras.