Vad skiljer p90 från p10 på BLA (totalt)?

Jämförelse av BLA (totalt) mellan dokument i topp-tiondelen (p90) och botten-tiondelen (p10).

Är grupperna olika långa?

p90 har i snitt 1469 ord (median 1250). p10 har i snitt 1830 ord (median 1341).

p10-dokument är längre än p90-dokument. Vissa skillnader nedan kan bero på att längre dokument hinner ta upp fler saker, inte att de är bättre eller sämre.

Hur skiljer sig grupperna på andra mått?

Jämför p90 med p10 på andra dimensioner. Värdena är justerade för dokumentlängd, vilket betyder att vi jämför korta dokument mot korta, mellanlånga mot mellanlånga, långa mot långa, och slår sedan ihop resultaten. När den justerade skillnaden är mycket mindre än den ojusterade handlade hela skillnaden om att grupperna var olika långa, inte att innehållet skiljde sig.

Dimension	Pelare	Skillnad (justerad för längd)	Robust vid bredare tröskel?	Att veta
DNA Anatomi	DNA	mycket högre i p10	Nej, bara synligt vid p90/p10	Ojusterad och justerad är liknande
DNA Nomenklatur	DNA	mycket högre i p90	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
DNA Driv	DNA	märkbart högre i p10	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
Integration	Övrigt	märkbart högre i p90	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
E5 Målbilder	STA7	märkbart högre i p10	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
E3 Avsikt	STA7	lite högre i p90	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
E4 Värde	STA7	liknar varandra	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
LUFT (totalt)	LUFT	liknar varandra	Nej, bara synligt vid p90/p10	Ojusterad och justerad är liknande
Substansindex	Övrigt	liknar varandra	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
E7 Friktion	STA7	liknar varandra	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
STA7 (totalt)	STA7	liknar varandra	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
E2 Antaganden	STA7	liknar varandra	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
E1 Utmaning	STA7	liknar varandra	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande
E6 Förmågor	STA7	liknar varandra	Ja, fyndet håller även vid q75/q25	Ojusterad och justerad är liknande

Vilka ord används mer av varje grupp?

Ord som förekommer i fler p90-dokument än p10-dokument (eller tvärtom). Räknat per dokument: ett ord räknas en gång oavsett hur ofta det förekommer i samma dokument.

Ord som p90 använder mer

Visar i hur många dokument av 41 ordet förekommer.

fastställa p90: 26 / p10: 7
avseende p90: 20 / p10: 4
tillämpning p90: 17 / p10: 1
införande p90: 20 / p10: 6
landsting p90: 14 / p10: 2
regel p90: 17 / p10: 5
kvalitetssäkra p90: 14 / p10: 3
ordinarie p90: 15 / p10: 4
kostnadseffektiv p90: 17 / p10: 6
genomföra p90: 37 / p10: 21
avse p90: 14 / p10: 4
etablera p90: 23 / p10: 11
tillämpa p90: 16 / p10: 6
realisera p90: 16 / p10: 6
invånarnas p90: 13 / p10: 4
policyn p90: 10 / p10: 2
utformning p90: 10 / p10: 2
relatera p90: 10 / p10: 2
styrmodell p90: 9 / p10: 1
framtagande p90: 9 / p10: 1
besluta p90: 25 / p10: 13
anskaffning p90: 11 / p10: 3
fastställd p90: 11 / p10: 3
förvalta p90: 18 / p10: 8
samordna p90: 22 / p10: 11

Ord som p10 använder mer

Visar i hur många dokument av 41 ordet förekommer.

tänka p90: 4 / p10: 22
förstå p90: 2 / p10: 16
våga p90: 4 / p10: 18
sak p90: 1 / p10: 15
möte p90: 3 / p10: 16
veta p90: 1 / p10: 14
jobba p90: 3 / p10: 15
ständig p90: 3 / p10: 14
automatisera p90: 8 / p10: 22
dra p90: 5 / p10: 17
samarbeta p90: 5 / p10: 17
fungera p90: 10 / p10: 25
innovativ p90: 8 / p10: 21
delta p90: 5 / p10: 16
säkra p90: 1 / p10: 10
enkel p90: 7 / p10: 19
flexibel p90: 6 / p10: 17
förståelse p90: 3 / p10: 12
söka p90: 3 / p10: 12
fokus p90: 16 / p10: 32
minska p90: 14 / p10: 29
lärande p90: 5 / p10: 15
känna p90: 5 / p10: 15
medarbetar p90: 2 / p10: 10
bra p90: 9 / p10: 21

Per organisations-typ (är ord-mönstren samma i kommun, region och stat?)

Samma log-odds-ratio-analys som ovan men beräknad separat för varje organisations-typ. Visar om de generella mönstren håller eller om de drivs av en specifik typ. Org-typer med färre än 10 dokument i p90 eller p10 visas inte (otillförlitliga estimat).

Kommun (p90 n=19, p10 n=21)

Mer i p90 (top 10)

fastställa 15/4
etablera 13/3
kostnadseffektiv 11/2
avse 9/1
ordinarie 9/2
förvalta 9/2
budget 9/2
besluta 13/5
ärende 10/3
innehåll 10/3

Mer i p10 (top 10)

våga 2/12
tänka 1/10
automatisera 2/10
minska 4/13
lära 3/11
skr 3/11
innovativ 4/12
hålla 3/10
känna 3/10
fokusera 3/10

Region (p90 n=11, p10 n=0)

Otillräckligt sample för stratifierad analys.

Stat (p90 n=11, p10 n=20)

Mer i p90 (top 10)

regel 7/4
uppfylla 8/6
gälla 6/4
förenkla 7/6
övergripa 10/11
extern 8/8
infrastruktur 8/8
basera 8/8
samverkan 8/9
bygga 8/9

Mer i p10 (top 10)

modern 1/14
tillgängliggöra 1/14
snabb 1/11
telefon 1/10
effekt 1/10
riktning 1/10
samarbeta 1/10
flexibel 2/13
nära 1/9
takt 1/9

Exempel från p90-dokument

Bästa passage från de tre dokument som scoreade högst på BLA (totalt). Visar konkret språkmönster som triggar hög score, för läsning som inspiration eller jämförelse.

"Detalj- översikt- och regionplaner - Riksintressen - Byggnadsinformation (BIM) och AI - Cirkulär ekonomi, kontrollplan och OVK - Utveckla ansvar och tjänster i internt och externt samskapande. - Strategiska planen ger riktning."

Boverket Strategisk plan digitalisering · score 49.2 · trigger: Språkkomplexitet (lång/nominaliserad)

"Syftet med policyn är att tydliggöra kommunens förhållningssätt och inriktning avseende användning och utveckling av all IT-relaterad verksamhet som behövs för att uppfylla målen för den kommunala verksamheten."

Bräcke IT-policy · score 49.0 · trigger: Språkkomplexitet (lång/nominaliserad)

"Öppenhet och tillgänglighet ska kontinuerligt vägas mot säkerhet och personlig integritet vid användningen av IT-systemen och hantering av digital information. ## POLICY Gäller från och med 2011-04-14 Beslutat av Rektor"

Högskolan Dalarna policy for it · score 48.5 · trigger: Språkkomplexitet (lång/nominaliserad)

Exempel från p10-dokument

Passage från de tre dokument med lägst score på BLA (totalt). Eftersom låg poäng är önskvärt för BLA (totalt) visas dessa som referens för klart språk.

"Vi ska gå i takt med vår omvärld "

SMHI Övergripande IT principer · score 30.7 · trigger: Klart språk

"Kärnan i vårt digitaliseringsarbete är att vi gör det tillsammans."

Simrishamn Digital · score 31.3 · trigger: Klart språk

"Tillitsbaserat arbete frigör tid och ger oss drivkraft framåt."

Grästorp Digitaliseringsplan · score 31.8 · trigger: Klart språk

Semantisk närhet mellan dokumenten

Använder spaCy-vektorer (300-dim) per dokument och beräknar genomsnittlig cosinus-likhet inom p90 (41 dok), inom p10 (41 dok) och mellan grupperna. Mäter om p90-dokumenten är semantiskt täta (samma temacluster) eller endast lexikalt täta (samma ord, olika tema). Värden 0–1: högre = mer lik.

Mått	Cosinus-likhet
Inom p90 (genomsnitt par-vis)	0.902
Inom p10 (genomsnitt par-vis)	0.960
Mellan p90 och p10	0.912
Tightness-diff (p90 - mellan)	-0.011

Tolkning: positiv tightness-diff betyder att p90-dokumenten är mer lika varandra än de är p10-dokumenten, vilket pekar mot egen semantisk klunga. Nära noll betyder att lexikal skillnad i tabellen ovan inte motsvaras av semantisk separation.

Hur skiljer sig strukturen?

Rubriker, listor, referenser i dokumentet. Justerad för längd som ovan.

Mått	p90 medel	p10 medel	Skillnad (längd-justerad)
headings_total_per_1k	0.0	0.06	liknar varandra
tables_count_per_1k	0.02	0.01	liknar varandra
list_bullet_count_per_1k	5.83	3.06	lite högre i p90
list_numbered_count_per_1k	1.11	0.87	liknar varandra
list_ratio	0.1	0.05	märkbart högre i p90
total_references_per_1k	13.28	7.74	märkbart högre i p90
ref_legislation_per_1k	0.12	0.03	lite högre i p90
ref_organizations_per_1k	1.44	0.87	liknar varandra

Hur är detta beräknat?

Underlag: 41 dokument i p90, 41 dokument i p10 (av dessa har 41 respektive 41 annoterad text för ord-analysen).

"Skillnad" i tabellerna ovan är översatt från Cohen's d med tröskelvärdena 0.2 (liten), 0.5 (medel) och 0.8 (stor). Standardvärden för effektstorlek (Cohen 1988).

Längd-justering. Dokumenten delas i tre lika stora grupper efter ord-antal: kort (under 1207 ord), mid (upp till 2139 ord), och lång (resten). Cohen's d beräknas inom varje längd-grupp och poolas via inverse-variance weighting (analog med fixed-effect meta-analysis av Hedges g). Detta neutraliserar längd-confound som annars uppstår när rankningen på BLA (totalt) är systematiskt längd-stratifierad. Se docs/length-bias-audit-2026-06-05.md för bakgrund.

Ord-jämförelsen använder log-odds-ratio med Dirichlet-prior (Monroe, Colaresi och Quinn 2008). En statistisk metod som visar vilka ord som är överrepresenterade i en grupp jämfört med en annan. Visas endast ord som förekommer i minst 10 dokument totalt och som är innehållsord (substantiv, verb, adjektiv, egennamn). Ord-räkningen är per-dokument förekomst, inte total frekvens (annotated/-format ger unika lemman per dok). Lexikal differential är INTE längd-justerad i nuvarande version.

Kvarstående bias. Per length-bias-audit 2026-06-05 har STA7- och DNA-rå-scores i baseline_scores.csv stark längd-korrelation (canvas_compound ρ=+0.774, nom_total ρ=+0.850). Detta är drift mellan baseline-CSV och density-versionerna i deep_scoring.py och åtgärdas separat. Stratifieringen ovan hanterar konsekvensen i cross-dim-tabellen men löser inte grundorsaken.

Underlaget är genererat 2026-06-05 mot frusen baseline. Vid förändringar i scoring eller korpus måste underlaget regenereras.

Tillbaka till p90 / p10-listor