Vad skiljer p90 från p10 på DNA Driv?

Jämförelse av DNA Driv mellan dokument i topp-tiondelen (p90) och botten-tiondelen (p10).

Är grupperna olika långa?

p90 har i snitt 4077 ord (median 3390). p10 har i snitt 585 ord (median 501).

p90-dokument är längre än p10-dokument. Vissa skillnader nedan kan bero på att längre dokument hinner ta upp fler saker, inte att de är bättre eller sämre.

Hur skiljer sig grupperna på andra mått?

Jämför p90 med p10 på andra dimensioner. Värdena är justerade för dokumentlängd, vilket betyder att vi jämför korta dokument mot korta, mellanlånga mot mellanlånga, långa mot långa, och slår sedan ihop resultaten. När den justerade skillnaden är mycket mindre än den ojusterade handlade hela skillnaden om att grupperna var olika långa, inte att innehållet skiljde sig.

Dimension Pelare Skillnad (justerad för längd) Robust vid bredare tröskel? Att veta
LUFT (totalt) LUFT liknar varandra N/A Något av skillnaden var längd-effekt
STA7 (totalt) STA7 liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
E1 Utmaning STA7 liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
E2 Antaganden STA7 liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
E3 Avsikt STA7 liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
E4 Värde STA7 liknar varandra N/A Något av skillnaden var längd-effekt
E5 Målbilder STA7 liknar varandra N/A Ojusterad och justerad är liknande
E6 Förmågor STA7 liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
E7 Friktion STA7 liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
DNA Anatomi DNA liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
DNA Nomenklatur DNA liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
BLA (totalt) BLA liknar varandra N/A Något av skillnaden var längd-effekt
Substansindex Övrigt liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt
Integration Övrigt liknar varandra N/A Ojusterad skillnad var större, mest längd-effekt

Vilka ord används mer av varje grupp?

Ord som förekommer i fler p90-dokument än p10-dokument (eller tvärtom). Räknat per dokument: ett ord räknas en gång oavsett hur ofta det förekommer i samma dokument.

Ord som p90 använder mer

Visar i hur många dokument av 39 ordet förekommer.

  1. samla p90: 45 / p10: 4
  2. koppla p90: 36 / p10: 2
  3. visa p90: 30 / p10: 2
  4. möte p90: 26 / p10: 1
  5. lägga p90: 24 / p10: 1
  6. tillgängliggöra p90: 23 / p10: 1
  7. genomförande p90: 26 / p10: 2
  8. undvika p90: 22 / p10: 1
  9. riktning p90: 25 / p10: 2
  10. sån p90: 25 / p10: 2
  11. viss p90: 25 / p10: 2
  12. sak p90: 20 / p10: 1
  13. sätta p90: 24 / p10: 2
  14. tur p90: 19 / p10: 1
  15. samband p90: 19 / p10: 1
  16. budget p90: 19 / p10: 1
  17. planera p90: 28 / p10: 3
  18. utgöra p90: 28 / p10: 3
  19. insats p90: 28 / p10: 3
  20. begrepp p90: 23 / p10: 2
  21. gång p90: 23 / p10: 2
  22. själv p90: 23 / p10: 2
  23. fysisk p90: 18 / p10: 1
  24. lära p90: 22 / p10: 2
  25. automatisera p90: 31 / p10: 4

Ord som p10 använder mer

Visar i hur många dokument av 39 ordet förekommer.

  1. verksamhet p90: 39 / p10: 34
  2. behov p90: 38 / p10: 33
  3. mål p90: 40 / p10: 33
  4. utveckling p90: 41 / p10: 33
  5. tjänst p90: 39 / p10: 31
  6. policy p90: 7 / p10: 13
  7. sätt p90: 39 / p10: 29
  8. använda p90: 40 / p10: 29
  9. bidra p90: 34 / p10: 26
  10. digital p90: 70 / p10: 42
  11. kvalitet p90: 33 / p10: 25
  12. digitalisering p90: 40 / p10: 28
  13. effektiv p90: 35 / p10: 25
  14. syfte p90: 38 / p10: 26
  15. process p90: 36 / p10: 25
  16. information p90: 39 / p10: 26
  17. lösning p90: 39 / p10: 26
  18. arbete p90: 39 / p10: 26
  19. kommun p90: 31 / p10: 22
  20. medarbetare p90: 38 / p10: 24
  21. förutsättning p90: 38 / p10: 24
  22. skapa p90: 45 / p10: 27
  23. fastställd p90: 6 / p10: 8
  24. dnr p90: 6 / p10: 8
  25. beslutad p90: 6 / p10: 8
Per organisations-typ (är ord-mönstren samma i kommun, region och stat?)

Samma log-odds-ratio-analys som ovan men beräknad separat för varje organisations-typ. Visar om de generella mönstren håller eller om de drivs av en specifik typ. Org-typer med färre än 10 dokument i p90 eller p10 visas inte (otillförlitliga estimat).

Kommun (p90 n=29, p10 n=21)

Mer i p90 (top 10)

  1. samla 33/1
  2. minska 33/2
  3. koppla 27/1
  4. anpassa 25/1
  5. visa 22/1
  6. lärande 21/1
  7. riktning 21/1
  8. möte 19/1
  9. uppfylla 19/1
  10. automatisera 24/2

Mer i p10 (top 10)

  1. digital 52/29
  2. kommun 29/20
  3. behov 28/19
  4. tjänst 30/19
  5. utveckling 31/19
  6. digitalisering 30/18
  7. verksamhet 29/17
  8. mål 29/17
  9. använda 29/17
  10. förvaltning 28/16

Region (p90 n=2, p10 n=5)

Otillräckligt sample för stratifierad analys.

Stat (p90 n=8, p10 n=13)

Otillräckligt sample för stratifierad analys.

Exempel från p90-dokument

Bästa passage från de tre dokument som scoreade högst på DNA Driv. Visar konkret språkmönster som triggar hög score, för läsning som inspiration eller jämförelse.

"Nyköping är en kommun där alla tar ansvar och har lika möjligheter till att bidra och gemensamt utveckla kommunen till en bra plats att bo och verka i."

Nyköping program för effektiv organisation · score 75.7 · trigger: Handlingsbärande mening

"Därtill förväntas bolaget ha personal som har god insikt och kunnande när det kommer till att förstå verksamheternas behov och utmaningar."

Essunga IT-strategi för 2014-2018 · score 74.5 · trigger: Handlingsbärande mening

"är att använda digital teknik för att hämta, bedöma, lagra, producera, redovisa och utbyta information samt för kommunikation."

Mellerud it och digitaliseringsstrategi · score 74.3 · trigger: Handlingsbärande mening

Semantisk närhet mellan dokumenten

Använder spaCy-vektorer (300-dim) per dokument och beräknar genomsnittlig cosinus-likhet inom p90 (38 dok), inom p10 (39 dok) och mellan grupperna. Mäter om p90-dokumenten är semantiskt täta (samma temacluster) eller endast lexikalt täta (samma ord, olika tema). Värden 0–1: högre = mer lik.

Mått Cosinus-likhet
Inom p90 (genomsnitt par-vis) 0.967
Inom p10 (genomsnitt par-vis) 0.909
Mellan p90 och p10 0.930
Tightness-diff (p90 - mellan) +0.037

Tolkning: positiv tightness-diff betyder att p90-dokumenten är mer lika varandra än de är p10-dokumenten, vilket pekar mot egen semantisk klunga. Nära noll betyder att lexikal skillnad i tabellen ovan inte motsvaras av semantisk separation.

Hur skiljer sig strukturen?

Rubriker, listor, referenser i dokumentet. Justerad för längd som ovan.

Mått p90 medel p10 medel Skillnad (längd-justerad)
headings_total_per_1k 0.0 0.0 liknar varandra
tables_count_per_1k 0.02 0.03 liknar varandra
list_bullet_count_per_1k 0.6 2.45 liknar varandra
list_numbered_count_per_1k 0.81 2.31 liknar varandra
list_ratio 0.02 0.06 liknar varandra
total_references_per_1k 7.67 11.45 liknar varandra
ref_legislation_per_1k 0.25 0.1 liknar varandra
ref_organizations_per_1k 1.09 0.69 liknar varandra
Hur är detta beräknat?

Underlag: 39 dokument i p90, 39 dokument i p10 (av dessa har 39 respektive 39 annoterad text för ord-analysen).

"Skillnad" i tabellerna ovan är översatt från Cohen's d med tröskelvärdena 0.2 (liten), 0.5 (medel) och 0.8 (stor). Standardvärden för effektstorlek (Cohen 1988).

Längd-justering. Dokumenten delas i tre lika stora grupper efter ord-antal: kort (under 1207 ord), mid (upp till 2139 ord), och lång (resten). Cohen's d beräknas inom varje längd-grupp och poolas via inverse-variance weighting (analog med fixed-effect meta-analysis av Hedges g). Detta neutraliserar längd-confound som annars uppstår när rankningen på DNA Driv är systematiskt längd-stratifierad. Se docs/length-bias-audit-2026-06-05.md för bakgrund.

Ord-jämförelsen använder log-odds-ratio med Dirichlet-prior (Monroe, Colaresi och Quinn 2008). En statistisk metod som visar vilka ord som är överrepresenterade i en grupp jämfört med en annan. Visas endast ord som förekommer i minst 10 dokument totalt och som är innehållsord (substantiv, verb, adjektiv, egennamn). Ord-räkningen är per-dokument förekomst, inte total frekvens (annotated/-format ger unika lemman per dok). Lexikal differential är INTE längd-justerad i nuvarande version.

Kvarstående bias. Per length-bias-audit 2026-06-05 har STA7- och DNA-rå-scores i baseline_scores.csv stark längd-korrelation (canvas_compound ρ=+0.774, nom_total ρ=+0.850). Detta är drift mellan baseline-CSV och density-versionerna i deep_scoring.py och åtgärdas separat. Stratifieringen ovan hanterar konsekvensen i cross-dim-tabellen men löser inte grundorsaken.

Underlaget är genererat 2026-06-05 mot frusen baseline. Vid förändringar i scoring eller korpus måste underlaget regenereras.

Analyserar dokumentet