Vad skiljer p90 från p10 på E3 Avsikt?

Jämförelse av E3 Avsikt mellan dokument i topp-tiondelen (p90) och botten-tiondelen (p10).

Är grupperna olika långa?

p90 har i snitt 1248 ord (median 1047). p10 har i snitt 1245 ord (median 705).

Grupperna är ungefär lika långa. Skillnaderna nedan beror inte på dokumentlängd.

Hur skiljer sig grupperna på andra mått?

Jämför p90 med p10 på andra dimensioner. Värdena är justerade för dokumentlängd, vilket betyder att vi jämför korta dokument mot korta, mellanlånga mot mellanlånga, långa mot långa, och slår sedan ihop resultaten. När den justerade skillnaden är mycket mindre än den ojusterade handlade hela skillnaden om att grupperna var olika långa, inte att innehållet skiljde sig.

Dimension Pelare Skillnad (justerad för längd) Robust vid bredare tröskel? Att veta
STA7 (totalt) STA7 mycket högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
DNA Driv DNA märkbart högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
E1 Utmaning STA7 märkbart högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
DNA Nomenklatur DNA märkbart högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
E5 Målbilder STA7 märkbart högre i p90 Nej, bara synligt vid p90/p10 Ojusterad och justerad är liknande
BLA (totalt) BLA lite högre i p90 Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
Substansindex Övrigt lite högre i p90 Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
DNA Anatomi DNA lite högre i p10 Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
E4 Värde STA7 liknar varandra Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
LUFT (totalt) LUFT liknar varandra Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
E2 Antaganden STA7 liknar varandra Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
E7 Friktion STA7 liknar varandra Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
E6 Förmågor STA7 liknar varandra Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande
Integration Övrigt liknar varandra Ja, fyndet håller även vid q75/q25 Ojusterad och justerad är liknande

Vilka ord används mer av varje grupp?

Ord som förekommer i fler p90-dokument än p10-dokument (eller tvärtom). Räknat per dokument: ett ord räknas en gång oavsett hur ofta det förekommer i samma dokument.

Ord som p90 använder mer

Visar i hur många dokument av 38 ordet förekommer.

  1. företag p90: 25 / p10: 1
  2. nyttja p90: 22 / p10: 4
  3. attraktiv p90: 18 / p10: 4
  4. invånarna p90: 12 / p10: 1
  5. privatperson p90: 11 / p10: 1
  6. bolag p90: 10 / p10: 2
  7. realisera p90: 10 / p10: 2
  8. relevant p90: 19 / p10: 7
  9. riktlinj p90: 17 / p10: 6
  10. besökare p90: 13 / p10: 4
  11. definiera p90: 13 / p10: 4
  12. standardiserad p90: 11 / p10: 3
  13. modern p90: 22 / p10: 10
  14. sprida p90: 10 / p10: 3
  15. målbild p90: 10 / p10: 3
  16. eventuell p90: 8 / p10: 2
  17. användbarhet p90: 8 / p10: 2
  18. genomsyra p90: 8 / p10: 2
  19. nuvarande p90: 8 / p10: 2
  20. typ p90: 8 / p10: 2
  21. uppfylla p90: 13 / p10: 5
  22. visa p90: 13 / p10: 5
  23. planera p90: 13 / p10: 5
  24. kostnad p90: 18 / p10: 8
  25. kunskap p90: 21 / p10: 10

Ord som p10 använder mer

Visar i hur många dokument av 38 ordet förekommer.

  1. utvecklingsområde p90: 2 / p10: 10
  2. kompetensutveckling p90: 3 / p10: 11
  3. dokumentansvarig p90: 4 / p10: 12
  4. format p90: 2 / p10: 8
  5. hjälpmedel p90: 2 / p10: 8
  6. lycka p90: 6 / p10: 13
  7. främja p90: 10 / p10: 17
  8. målgrupp p90: 3 / p10: 8
  9. tillräcklig p90: 3 / p10: 8
  10. region p90: 10 / p10: 16
  11. lyfta p90: 5 / p10: 10
  12. regering p90: 7 / p10: 12
  13. systematisk p90: 9 / p10: 14
  14. fungera p90: 9 / p10: 14
  15. dator p90: 3 / p10: 7
  16. strategin p90: 3 / p10: 7
  17. ledning p90: 11 / p10: 16
  18. villkor p90: 4 / p10: 8
  19. ställa p90: 15 / p10: 20
  20. inledning p90: 16 / p10: 21
  21. förändra p90: 18 / p10: 23
  22. mobil p90: 5 / p10: 9
  23. medel p90: 5 / p10: 9
  24. lärande p90: 5 / p10: 9
  25. sträva p90: 7 / p10: 11
Per organisations-typ (är ord-mönstren samma i kommun, region och stat?)

Samma log-odds-ratio-analys som ovan men beräknad separat för varje organisations-typ. Visar om de generella mönstren håller eller om de drivs av en specifik typ. Org-typer med färre än 10 dokument i p90 eller p10 visas inte (otillförlitliga estimat).

Kommun (p90 n=29, p10 n=21)

Mer i p90 (top 10)

  1. minska 20/2
  2. nyttja 18/1
  3. intern 19/3
  4. relevant 13/1
  5. kunskap 14/2
  6. modern 16/3
  7. kostnad 13/2
  8. riktlinj 13/2
  9. prioritera 25/7
  10. privatperson 10/1

Mer i p10 (top 10)

  1. utvecklingsområde 2/9
  2. främja 4/10
  3. investering 6/11
  4. region 5/10
  5. lycka 4/9
  6. dokumentansvarig 4/9
  7. förändra 14/16
  8. systematisk 6/9
  9. regering 5/8
  10. skr 4/7

Region (p90 n=4, p10 n=5)

Otillräckligt sample för stratifierad analys.

Stat (p90 n=5, p10 n=12)

Otillräckligt sample för stratifierad analys.

Exempel från p90-dokument

Bästa passage från de tre dokument som scoreade högst på E3 Avsikt. Visar konkret språkmönster som triggar hög score, för läsning som inspiration eller jämförelse.

"Till föreliggande policy tillhör även nedanstående dokument vilka varje anställd ska känna till och följa innehållet i: - Regler och riktlinjer för IT-användning - Förvaltningsdelarnas kompletterande regler, handlingsplaner och riktlinjer Figur och rangordning av dessa dokument framgår på nästa sida. <!-- image -->"

Kävlinge IT-policy · score 91.4 · trigger: Avsikt artikulerad

"Policyn gäller för samtliga i staden och omfattar styrelse, nämnder, helägda företag och utövare som nyttjar stadens organisatoriska stöd eller IT-system. ##"

Solna IT-policy · score 88.1 · trigger: Avsikt artikulerad

"Vi prioriterar och betraktar data och information som strategiska tillgångar eftersom de är basen för digitalisering och insiktsfullt beslutsfattande."

Region Västra Götaland Digitaliseringspolicy 2020-2025 · score 87.8 · trigger: Avsikt artikulerad

Semantisk närhet mellan dokumenten

Använder spaCy-vektorer (300-dim) per dokument och beräknar genomsnittlig cosinus-likhet inom p90 (38 dok), inom p10 (38 dok) och mellan grupperna. Mäter om p90-dokumenten är semantiskt täta (samma temacluster) eller endast lexikalt täta (samma ord, olika tema). Värden 0–1: högre = mer lik.

Mått Cosinus-likhet
Inom p90 (genomsnitt par-vis) 0.923
Inom p10 (genomsnitt par-vis) 0.910
Mellan p90 och p10 0.918
Tightness-diff (p90 - mellan) +0.005

Tolkning: positiv tightness-diff betyder att p90-dokumenten är mer lika varandra än de är p10-dokumenten, vilket pekar mot egen semantisk klunga. Nära noll betyder att lexikal skillnad i tabellen ovan inte motsvaras av semantisk separation.

Hur skiljer sig strukturen?

Rubriker, listor, referenser i dokumentet. Justerad för längd som ovan.

Mått p90 medel p10 medel Skillnad (längd-justerad)
headings_total_per_1k 0.0 0.0 liknar varandra
tables_count_per_1k 0.01 0.0 liknar varandra
list_bullet_count_per_1k 2.72 4.05 liknar varandra
list_numbered_count_per_1k 0.84 1.06 liknar varandra
list_ratio 0.05 0.07 liknar varandra
total_references_per_1k 9.49 12.17 lite högre i p10
ref_legislation_per_1k 0.22 0.02 lite högre i p90
ref_organizations_per_1k 0.47 0.9 lite högre i p10
Hur är detta beräknat?

Underlag: 38 dokument i p90, 38 dokument i p10 (av dessa har 38 respektive 38 annoterad text för ord-analysen).

"Skillnad" i tabellerna ovan är översatt från Cohen's d med tröskelvärdena 0.2 (liten), 0.5 (medel) och 0.8 (stor). Standardvärden för effektstorlek (Cohen 1988).

Längd-justering. Dokumenten delas i tre lika stora grupper efter ord-antal: kort (under 1207 ord), mid (upp till 2139 ord), och lång (resten). Cohen's d beräknas inom varje längd-grupp och poolas via inverse-variance weighting (analog med fixed-effect meta-analysis av Hedges g). Detta neutraliserar längd-confound som annars uppstår när rankningen på E3 Avsikt är systematiskt längd-stratifierad. Se docs/length-bias-audit-2026-06-05.md för bakgrund.

Ord-jämförelsen använder log-odds-ratio med Dirichlet-prior (Monroe, Colaresi och Quinn 2008). En statistisk metod som visar vilka ord som är överrepresenterade i en grupp jämfört med en annan. Visas endast ord som förekommer i minst 10 dokument totalt och som är innehållsord (substantiv, verb, adjektiv, egennamn). Ord-räkningen är per-dokument förekomst, inte total frekvens (annotated/-format ger unika lemman per dok). Lexikal differential är INTE längd-justerad i nuvarande version.

Kvarstående bias. Per length-bias-audit 2026-06-05 har STA7- och DNA-rå-scores i baseline_scores.csv stark längd-korrelation (canvas_compound ρ=+0.774, nom_total ρ=+0.850). Detta är drift mellan baseline-CSV och density-versionerna i deep_scoring.py och åtgärdas separat. Stratifieringen ovan hanterar konsekvensen i cross-dim-tabellen men löser inte grundorsaken.

Underlaget är genererat 2026-06-05 mot frusen baseline. Vid förändringar i scoring eller korpus måste underlaget regenereras.

Analyserar dokumentet