Vad skiljer p90 från p10 på DNA Nomenklatur?

Jämförelse av DNA Nomenklatur mellan dokument i topp-tiondelen (p90) och botten-tiondelen (p10).

Är grupperna olika långa?

p90 har i snitt 6008 ord (median 4460). p10 har i snitt 738 ord (median 670).

p90-dokument är längre än p10-dokument. Vissa skillnader nedan kan bero på att längre dokument hinner ta upp fler saker, inte att de är bättre eller sämre.

Hur skiljer sig grupperna på andra mått?

Jämför p90 med p10 på andra dimensioner. Värdena är justerade för dokumentlängd, vilket betyder att vi jämför korta dokument mot korta, mellanlånga mot mellanlånga, långa mot långa, och slår sedan ihop resultaten. När den justerade skillnaden är mycket mindre än den ojusterade handlade hela skillnaden om att grupperna var olika långa, inte att innehållet skiljde sig.

Dimension Pelare Skillnad (justerad för längd) Robust vid bredare tröskel? Att veta
E5 Målbilder STA7 mycket högre i p10 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
Integration Övrigt mycket högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
LUFT (totalt) LUFT mycket högre i p10 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
BLA (totalt) BLA mycket högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
Substansindex Övrigt mycket högre i p10 Ja, fyndet håller även vid q75/q25 Riktningen vände när vi justerade för längd
E7 Friktion STA7 mycket högre i p10 Nej, bara synligt vid p90/p10 Riktningen vände när vi justerade för längd
E3 Avsikt STA7 mycket högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
E4 Värde STA7 märkbart högre i p10 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
E2 Antaganden STA7 lite högre i p90 Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
E6 Förmågor STA7 lite högre i p10 Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
E1 Utmaning STA7 lite högre i p90 Ja, fyndet håller även vid q75/q25 Ojusterad skillnad var större, mest längd-effekt
DNA Driv DNA lite högre i p10 Nej, bara synligt vid p90/p10 Riktningen vände när vi justerade för längd
STA7 (totalt) STA7 lite högre i p10 Nej, bara synligt vid p90/p10 Riktningen vände när vi justerade för längd
DNA Anatomi DNA liknar varandra Ja, fyndet håller även vid q75/q25 Riktningen vände när vi justerade för längd

Vilka ord används mer av varje grupp?

Ord som förekommer i fler p90-dokument än p10-dokument (eller tvärtom). Räknat per dokument: ett ord räknas en gång oavsett hur ofta det förekommer i samma dokument.

Ord som p90 använder mer

Visar i hur många dokument av 39 ordet förekommer.

  1. lokal p90: 41 / p10: 2
  2. regional p90: 37 / p10: 2
  3. agenda p90: 39 / p10: 3
  4. region p90: 37 / p10: 3
  5. basera p90: 36 / p10: 3
  6. öppna p90: 26 / p10: 1
  7. stark p90: 26 / p10: 1
  8. person p90: 29 / p10: 2
  9. väg p90: 27 / p10: 2
  10. bred p90: 23 / p10: 1
  11. bredband p90: 23 / p10: 1
  12. beroende p90: 26 / p10: 2
  13. befinna p90: 22 / p10: 1
  14. variera p90: 22 / p10: 1
  15. framtagande p90: 22 / p10: 1
  16. utrustning p90: 21 / p10: 1
  17. starta p90: 21 / p10: 1
  18. utsträckning p90: 25 / p10: 2
  19. särskild p90: 25 / p10: 2
  20. initiativ p90: 25 / p10: 2
  21. rapport p90: 20 / p10: 1
  22. skr p90: 20 / p10: 1
  23. tillväxt p90: 20 / p10: 1
  24. vård p90: 24 / p10: 2
  25. förvänta p90: 24 / p10: 2

Ord som p10 använder mer

Visar i hur många dokument av 39 ordet förekommer.

  1. använda p90: 36 / p10: 35
  2. behov p90: 39 / p10: 36
  3. utveckling p90: 41 / p10: 35
  4. digital p90: 71 / p10: 49
  5. tjänst p90: 38 / p10: 33
  6. digitaliseringsarbete p90: 11 / p10: 18
  7. digitalisering p90: 39 / p10: 33
  8. arbete p90: 38 / p10: 32
  9. verksamhet p90: 39 / p10: 32
  10. syfte p90: 37 / p10: 30
  11. information p90: 38 / p10: 30
  12. bidra p90: 34 / p10: 28
  13. öka p90: 73 / p10: 45
  14. sätt p90: 37 / p10: 28
  15. process p90: 35 / p10: 27
  16. förutsättning p90: 36 / p10: 27
  17. effektiv p90: 37 / p10: 27
  18. skapa p90: 52 / p10: 33
  19. medarbetare p90: 33 / p10: 24
  20. datum p90: 6 / p10: 10
  21. arbeta p90: 40 / p10: 27
  22. lösning p90: 36 / p10: 25
  23. policy p90: 10 / p10: 12
  24. kvalitet p90: 32 / p10: 23
  25. mål p90: 39 / p10: 26
Per organisations-typ (är ord-mönstren samma i kommun, region och stat?)

Samma log-odds-ratio-analys som ovan men beräknad separat för varje organisations-typ. Visar om de generella mönstren håller eller om de drivs av en specifik typ. Org-typer med färre än 10 dokument i p90 eller p10 visas inte (otillförlitliga estimat).

Kommun (p90 n=16, p10 n=21)

Mer i p90 (top 10)

  1. koppla 18/1
  2. skr 17/1
  3. lokal 18/2
  4. införa 14/1
  5. minska 25/5
  6. agenda 15/2
  7. exempel 15/2
  8. leverantör 12/1
  9. tillgängliggöra 12/1
  10. regional 12/1

Mer i p10 (top 10)

  1. digital 30/31
  2. behov 16/21
  3. använda 15/19
  4. digitalisering 15/19
  5. tjänst 17/19
  6. arbete 16/18
  7. digitaliseringsarbete 9/12
  8. verksamhet 16/17
  9. information 15/16
  10. utveckling 18/18

Region (p90 n=14, p10 n=3)

Otillräckligt sample för stratifierad analys.

Stat (p90 n=9, p10 n=15)

Otillräckligt sample för stratifierad analys.

Exempel från p90-dokument

Bästa passage från de tre dokument som scoreade högst på DNA Nomenklatur. Visar konkret språkmönster som triggar hög score, för läsning som inspiration eller jämförelse.

"Nationella mål Svenska skolan står idag inför stora utmaningar."

Region Värmland Digital Agenda Handlingsplan 2014-2020 · score 80.9 · trigger: Domänvokabulär

"Den digitala omställningen berör all samhällsutveckling och därigenom samtliga globala mål för hållbar utveckling."

Region Kalmar digital agenda 2019-2020 · score 79.8 · trigger: Domänvokabulär

"I Laxå kommun använder vi digitaliseringens möjligheter för att förbättra effektiviteten och kvaliteten i våra verksamheter."

Laxå Förstudierapport Digitalisering · score 78.8 · trigger: Domänvokabulär

Semantisk närhet mellan dokumenten

Använder spaCy-vektorer (300-dim) per dokument och beräknar genomsnittlig cosinus-likhet inom p90 (37 dok), inom p10 (39 dok) och mellan grupperna. Mäter om p90-dokumenten är semantiskt täta (samma temacluster) eller endast lexikalt täta (samma ord, olika tema). Värden 0–1: högre = mer lik.

Mått Cosinus-likhet
Inom p90 (genomsnitt par-vis) 0.926
Inom p10 (genomsnitt par-vis) 0.933
Mellan p90 och p10 0.928
Tightness-diff (p90 - mellan) -0.002

Tolkning: positiv tightness-diff betyder att p90-dokumenten är mer lika varandra än de är p10-dokumenten, vilket pekar mot egen semantisk klunga. Nära noll betyder att lexikal skillnad i tabellen ovan inte motsvaras av semantisk separation.

Hur skiljer sig strukturen?

Rubriker, listor, referenser i dokumentet. Justerad för längd som ovan.

Mått p90 medel p10 medel Skillnad (längd-justerad)
headings_total_per_1k 0.0 0.0 liknar varandra
tables_count_per_1k 0.0 0.0 liknar varandra
list_bullet_count_per_1k 1.32 1.83 mycket högre i p90
list_numbered_count_per_1k 0.76 1.19 liknar varandra
list_ratio 0.03 0.04 mycket högre i p90
total_references_per_1k 7.64 9.38 mycket högre i p90
ref_legislation_per_1k 0.24 0.19 mycket högre i p90
ref_organizations_per_1k 1.48 0.96 mycket högre i p90
Hur är detta beräknat?

Underlag: 39 dokument i p90, 39 dokument i p10 (av dessa har 39 respektive 39 annoterad text för ord-analysen).

"Skillnad" i tabellerna ovan är översatt från Cohen's d med tröskelvärdena 0.2 (liten), 0.5 (medel) och 0.8 (stor). Standardvärden för effektstorlek (Cohen 1988).

Längd-justering. Dokumenten delas i tre lika stora grupper efter ord-antal: kort (under 1207 ord), mid (upp till 2139 ord), och lång (resten). Cohen's d beräknas inom varje längd-grupp och poolas via inverse-variance weighting (analog med fixed-effect meta-analysis av Hedges g). Detta neutraliserar längd-confound som annars uppstår när rankningen på DNA Nomenklatur är systematiskt längd-stratifierad. Se docs/length-bias-audit-2026-06-05.md för bakgrund.

Ord-jämförelsen använder log-odds-ratio med Dirichlet-prior (Monroe, Colaresi och Quinn 2008). En statistisk metod som visar vilka ord som är överrepresenterade i en grupp jämfört med en annan. Visas endast ord som förekommer i minst 10 dokument totalt och som är innehållsord (substantiv, verb, adjektiv, egennamn). Ord-räkningen är per-dokument förekomst, inte total frekvens (annotated/-format ger unika lemman per dok). Lexikal differential är INTE längd-justerad i nuvarande version.

Kvarstående bias. Per length-bias-audit 2026-06-05 har STA7- och DNA-rå-scores i baseline_scores.csv stark längd-korrelation (canvas_compound ρ=+0.774, nom_total ρ=+0.850). Detta är drift mellan baseline-CSV och density-versionerna i deep_scoring.py och åtgärdas separat. Stratifieringen ovan hanterar konsekvensen i cross-dim-tabellen men löser inte grundorsaken.

Underlaget är genererat 2026-06-05 mot frusen baseline. Vid förändringar i scoring eller korpus måste underlaget regenereras.

Analyserar dokumentet