De naturlige sprogs informationsteori

Hvorfor er der nogle sprog, der lyder “hurtigere” end andre? Spansk virker for mange (også for mig) som et sprog, hvor der bliver talt hurtigt, mens fransk og tysk er mere adstadige i tempo. Underligt nok, for fransk er tættere beslægtet med spansk end med tysk. I Time kan man læse om en fransk undersøgelse fra Université de Lyon, der undersøger dette.

Der er tale om en empirisk undersøgelse, hvor man har ladet mennesker med forskellige modersmål læse de samme tekster i hver deres oversættelse højt. Det viser sig, at der er forskelle i informationstætheden i det sprog, der tales – løst sagt, hvor mange stavelser, der skal bruges for at udtrykke en mening – og på hvor mange stavelser, der siges pr. tidsenhed. På spansk er informationstætheden lavere end på fransk, men der siges flere stavelser pr. tidsenhed. Det er derfor, det virker det som om spansktalende taler hurtigere end fransktalende.

En anden undersøgelse fra Manchester University synes til gengæld at påvise, at forskellige naturlige sprog har samme entropi, og det undrede mig først. Entropi i informationsteoretisk forstand er et mål for den forventede informationsmængde i et sprog. Mere præcist, hvis en stokastisk variabel X kan antage værdier i mængden \{ x_1, \ldots, x_n \} med sandsynlighed p(x_i), så er entropien givet ved

H(X) = - \sum^{n}_{i=1} p(x_i)\log_2(p(x_i))

Fra Lyon-undersøgelsen skulle man forvente, at spansk og fransk ikke havde samme entropi. Men Manchester-undersøgelser siger, at det har det. Hvordan kan de to konklusioner leve sammen? Forskellen er så vidt jeg kan se, at undersøgelsen fra Lyon betragter entropien af stavelser, mens undersøgelsen fra Manchester betragter entropien af længere sproglige konstruktioner (sætninger og helmeninger) – så udfaldsrummet for X er i Lyon-undersøgelsen mængden af stavelser og Manchester-undersøgelsen mængden af sætninger.

Det er også interessant, at Manchester-undersøgelsen tilsyneladende udelukkende betragter “langsomme” sprog som engelsk, tysk, fransk, finsk, kinesisk, tagalog (det mest udbredte sprog på Filippinerne) og uddøde sprog som sumerisk og oldægyptisk, for hvilke man muligvis ikke (jeg ved det ikke) kan sige meget om hastigheden.