6. april 2009

Påskeegg nummer 3 - det nye språket



"Fare - det er lett å skrive bokstavene speilvendt." Fra Russland

Skriftspråket vårt er en omstendelig greie. Vi har 29 bokstaver i norsk skrift, og likevel har vi ikke en bokstav for hver lyd (ng-lyden, sj-lyden, kj-lyden). Det er heller ikke sånn at alle lyder har entydig skrivemåte, for eksempel har 'bukk' og 'bord' samme vokallyd - men to ulike bokstaver.

Noen ord er korte, mens andre er lange. Da jeg var liten, sa vi at det lengste ordet på norsk var høyesterettsjustitiarius - som har 24 bokstaver. Totalt har det norske ordet ca. 60.000 ord.

Her er det på tide med en liten opprydning og effektivisering...

Dagens oppdrag er å lage et nytt språk. Du skal selv få velge hvor mange bokstaver du vil bruke, og hvor lange ord du vil ha. Men målet er altså å lage et nytt språk som er enklere å skrive enn det norske. Du trenger ikke å ta med alle lydene vi har i dag, du kan for eksempel gå ned på antall lyder for å få et mer rasjonelt tale- og skriftspråk.



"Fare for kø." Fra Hellas

Jeg starter med et lite eksempel. Hvis vi bare hadde hatt en bokstav (og dermed en lyd), og maks lengde på ord var en bokstav, ville vi bare kunne laget ett ord - 'I'. Og det er jo litt for lite for de fleste av oss.



"Spytting på gaten straffes med halshugging." Fra Kina

Vi innfører bokstav nummer to, 'O'. Dermed får vi fire mulige kombinasjoner: 'II', IO', OI' og 'OO' - og to enkeltbokstavsord, 'I' og 'O'. For ordens skyld luker vi bort 'II' og 'OO', og innfører en regel om at dobbel bokstav ikke er lov. Da står vi igjen med totalt fire ord når vi ser på to bokstavtegn og inntil to bokstavers ordlengde.



"Vokaler er oppskrytt", står det på dette skiltet fra Wales

Nå har du vel skjønt tegningen, og jeg spør: Hvordan vil ditt nye matematisk-logiske språk se ut?

13 kommentarer:

haraldhauge sa...

Har du ikke allerede langt på vei gitt oss et fullgodt svar i og med oppgaveteksten? Finnes ikke det optimale systemet allerede? Jeg bruker jo det binære tallsystemet bestående av bare 1'er og 0'er når jeg skriver disse setningene her. Riktignok er det vel strengt tatt snakk om "av" og "på", ikke "0" og "1" i streng forstand, og riktignok skjer det en hel masse som jeg ikke forstår fra alle disse 1-ene og 0-ene og til de bokstavene fra det latinske alfabetet som jeg ser på skjermen nå, men likevel...

Et helt nytt språk, sier du? Den må jeg nok gruble en stund på.

saccarina sa...

Hah, dette handler bare om matematikk, ikke språk :)

Det er åpenbart ingen fonetiske begrensninger som gjelder her, og det virker ikke som man skiller mellom vokaler og konsonanter. Jeg finner heller ingen pålegg når det gjelder ordlengde eller lesbarhet, bare på dobbelbokstav.

Så derfor: Jeg tror jeg ville klare meg med tre bokstaver. Med ordlengde på inntil 16 bokstaver skulle man kunne konstruere langt flere ord enn (du sier) det finnes på norsk.

Hvilke tre? Hm, e, r og t kanskje? Det blir det fine kombinasjoner av.

Dnort sa...

Avstanden mellom matematikk og språk er for i min hjerne til at jeg klarer å løse oppgaven.

Ang. høyesterettsjustitiarius, så kan det vel fort hende at han (eller hun) får seg en assistent og vips har du en tittel som er på 33 bokstaver!
Dette med det lengste ordet var noe jeg i sin tid fant ut ved å bla gjennom hele kryssordboka til fader'n.

Nissemann sa...

Jeg har sluppet gjennom to svar, men holder tilbake noen som inneholder et tydeligere forslag til løsning. :)

Litt flere tips til akkurat denne: Du står fritt til å velge hvor mange bokstaver/lyder du vil bruke, og hvor lange ord du vil tillate. Men du må sørge for at du dekker minst 60.000 mulige kombinasjoner.

Og ja, Saccarina - dette er nok mer matematikk enn språk. Det er lettere å regne med bokstaver enn å skrive tekst med tall... ;)

Dnort sa...

Avstanden er for lang altså. Mitt forrige svar manglet et ord. Må ha vært en tellefeil...

Esquil sa...

spørsmålet er altså om hva vi vil rasjonalisere, bokstaver eller ord. vi kan ha 60.000 bokstaver, ett for hvert ord, og hvor alle ordene var en bokstav. den andre ekstremløsningen ville lignet på morse, to bokstaver, prikk og strek, men som bare kunne gjentas i mønster prikk-strek-prikk-strek, og hvor ordene bare kan skilles på å starte med enten prikk eller strek, og lengden, slik at det lengste ordet ville bestått av tretti tusen bokstaver.

(Dette siden du med anti-gjentagelsesregelen har blokkert for det enda mer ekstreme systemet med en bokstav som gjentas et visst antall ganger, fra en til seksti tusen.)

Med 11 bokstaver vil vi ha 11 muligheter for startbokstav og deretter 10 muligheter for hver neste bokstav. det gir et system som tillater 11 en bokstavers-ord, 110 med to bokstaver, 1100 med tre, 11.000 med fire og 110.000 fem-bokstavers-ord, plass til totalt 122.221 ord uten å gå over 5 bokstaver.

Vi ser jo at mennesker lett lærer seg 30 bokstaver, og det ligger i ryggmargen å lage noe med ca 30 bokstaver. Men er dette gunstigst? hva om vi vil ha et språk som aper kan lære?

Jeg vil i min løsning forsøke å minimere bokstavmengde pluss ordlengde. De to beste løsningene er i såfall å ha 5 bokstaver/lyder, som ikke gir lengre ord enn 8 bokstaver, og å ha 6 bokstaver, som ikke krever lengre ord enn 7 bokstaver.
av disse ser vi at vi har kombinasjoner av det lengste ordet:
5*4*4*4*4*4*4*4=81920
6*5*5*5*5*5*5=93750

5-bokstaverssystemet gir 109.225 kombinasjoner, og 6-bokstavers-systemet gir 117.186 kombinasjoner, før vi må øke det lengste ordet. 6-bokstavssystemet har altså mest rom til nye ord. Så jeg går for dette.

Alfabetet mitt, eller aiet mitt, er &@£$%§. Lydene bokstavene står for er valgt slik at alle kombinasjoner skal være greie å uttale, så vi ikke får ord som xwq. Veldig vokalt språk, dette:

&=[a]
@=[i]
£=[u]
$=[o]
%=[e]
§=[s]

de seks mest vanlige ordene får disse bokstavene.
Oversatt fra norsk:
og = & [a]
i = % [e]
til = @ [i]

og så videre. De tretti neste ordene på 'vanlig ord'-listen får to bokstaver. mye preposisjoner og pronomener her.

for = £§ [us]
jeg = &% [ae]
ikke = @& [ia]

150 ord får tre bokstaver. dette kan jeg setter jeg av til infinitivsform av de 150 mest vanlige verbene, slik at man vet at et ord med 3 bokstaver alltid er et verb.

sparke = &@£ [aiu]
smile = $%§ [oes]

750 ord får fire bokstaver, og her er verbbøyningene av trebokstaversverbene dominerende.

sparket = &@£& [aiua]
smiler = $%§% [oese]

3750 ord får fem bokstaver, det blir mye substantiver herfra og ut. feks:

nisse = &%@&% [aeiae]

18750 ord har 6 bokstaver, og deretter er det plass til 93750 sju-bokstavers-ord. Heriblant
høyesterettsjustitiarius = @£§$%§% [iusoese]

Esquil sa...

hm. gikk den gjennom, tro?

Esquil sa...
Denne kommentaren har blitt fjernet av forfatteren.
Truls sa...

Først går jeg matematisk frem.

Gitt at man velger et alfabet med x bokstaver, og man skal unngå to like bokstaver etter hverandre, så får man:

- x enbokstavsord.
- x * (x-1) tobokstavsord.
- x * (x-1) * (x-1) trebokstavsord
- x * (x-1) * (x-1) * (x-1) firebokstavsord

osv.

Velger man få bokstaver i alfabetet, må ordene bli veldig lange før man får dekket 60.000 ord. Det strider mot kravet om at det skal være enkelt å skrive.

Velger man derimot for korte ord, får man så mange bokstaver i alfabetet at det blir vanskelig å lære seg.

Jeg velger å møtes på midten her, og sier at antall bokstaver i de lengste ordene skal være omtrent lik antall bokstaver i alfabetet.

Vil jeg dekke mer enn 60.000 ord da, ender jeg på en av to:
- Alfabet på 6 tegn, ord på max 7 tegn (117186 ord).
- Alfabet på 7 tegn, ord på max 6 tegn (65317 ord).

I denne sammenheng foretrekker jeg korte ord, og antar at 7 tegn skal være mulig å lære seg. Samtidig merker jeg meg muligheten til siden å utvide til 7 tegn også i ordene, slik at man potensielt får dekket 391909 ord.

Altså: 7 tegn i alfabetet, inntil 6 tegn i ordene.

Hvilke bokstaver skal jeg så bruke?

Først tenkte jeg på følgende tegn:
-|/\+xL
Begrunnelse: Alle tegnene kan skrives med streker. Dermed vil det bli forholdsvis enkelt å lage skrivemaskiner og tekstbehandlingsprogrammer.
Dessverre tror jeg språket kunne blitt vanskelig å lese - spesielt for de med dysleksi. Derfor gikk jeg bort fra det.

I stedet endte jeg med et alfabet med følgende bokstaver:
IOUSLbe
Merk at de to siste bokstavene er "små". I mitt alfabet opereres det bare med ett sett med bokstaver, og jeg har valgt denne skrivemåten. Uttaleform er som i vårt nåværende alfabet.
Begrunnelse for valg av bokstaver:
1 - Alle disse bokstavene kan skrives uten å løfte pennen fra arket. I motsetning til f.eks. A. Ergo: Lett å skrive.
2 - Ingen av bokstavene står i umiddelbar fare for å forveksles med hverandre. Ergo: Lettere lesbahet. Bedre for dyslektikere.
3 - Med bare tre konsonanter og fire vokaler, vil vi få ord som lar seg uttale. Man vil aldri få mer enn tre konsonanter på rad.
4 - Alle bokstavene har lyder skiller seg fra hverandre på en god måte. Altså lyttevennlig.

Videre, og dette går sikkert utenfor oppgavens scope, ville jeg ha sortert ordene slik at:
- Verb begynte på samme prefix.
- Alle preposisjoner var blant de 49 ordene med max 2 bokstaver.
etc.
(Denne sorteringen ville kanskje medføre at jeg måtte øke til 7-bokstavsord, men det ville være verdt det)

haraldhauge sa...

Sender over en skisse til et svar pr. mail på denne også. Bedre sent enn aldri.

Fortsatt god påske! :-D

Nissemann sa...

Påskeegg nummer 3 – løsningsforslag

Jeg havnet her på seks ulike bokstaver og ordlengde på sju tegn. Jeg synes det ville vært praktisk å bare brukt vokaler, siden det gir flest kombinasjonsmuligheter. Det er lettere å si OUIUA enn KLBRT. Seks ulike bokstavtegn gir følgende muligheter:
6 ord på en bokstav
30 på to bokstaver (= 6 x 5)
150 på tre bokstaver (= 6 x 5 x 5)
750 på fire bokstaver (du skjønner mønsteret)
3 750 på fem bokstaver
18 750 på seks bokstaver
93 750 på sju bokstaver

Eventuelt ville jeg laget et syvende bokstavtegn, og på den måten fått 391.909 ulike kombinasjonsmuligheter.

De seks enbokstavs-ordene skulle vært de vanligste eller viktigste i språket. ”Jeg”, ”du”, ”er”, ”elsker”, ”matematikk” og ”twitter” er selvskrevne her. Bøying av kjønn, tall, tid og farge (?) skulle vært enkelt, ved hjelp av egne bokstaver. Hvis ”IU” er å sykle, skulle ”IUO” være syklet og ”IUA” sykkel. For eksempel. Altså, et kompakt, logisk og effektivt språk. Esparanto 2!

Poengutdeling

Denne oppgaven er litt vanskeligere å bedømme. Jeg vil gi tre poeng til alle som har funnet en matematisk fullgod løsning som kan danne minst 60.000 ord, to poeng for mye bra og ett poeng for godt begynt. I tillegg gis det tøysepoeng, og dem går det 100 av på et ekte matematikkpoeng.

Saccarina – Godkjent og 3 poeng. Tre ulike bokstavtegn og 16 bokstavers ordlengde gir 98.304 mulige kombinasjoner. Jeg vil gjerne at ”trett” skal være Nissemann på ditt språk, kan du fikse det? Du sitter selvsagt i komiteen.

Dnort – 1 tøysepoeng. Flott at du har lest hele kryssordboka til din far. Har du vurdert å lese ei bok med bare tall også? Prøv denne! Kanskje avstanden mellom språk og tall i hjernen din krymper da? :)

Esquil – Godkjent og 3 poeng. Du har spennende tanker om nytt språk (les: Samme systemforslag som jeg har), så jeg håper du får plass i komiteen. Jeg rakk opp hånden i en norsktime på lærerskolen og sa at jeg skulle melde meg inn i Språkrådet, det var bare norsklæreren min som lo. :) ”Vi ser jo at mennesker lett lærer seg 30 bokstaver” – jeg har jobbet i skolen i ni år og er ikke enig… Du får bare godkjent svaret ditt en gang, heldigvis ordnet cyberspace opp.

Truls – Godkjent og 3 poeng. Jeg har også sett på sju bokstaver og sju tegn, likte å ha litt å gå på for å lage gode systemer for ordklasser, bøying osv. Og så vurderte jeg nye skrivemåter for bokstavene, jeg ville ha sirkel, trekant, firkant, loddrett strek osv – altså enkle geometriske former. Lurt tenkt å tenke på skrivemåte, at bokstavene skal kunne skrives med kun en linje. Du burde også sittet i språkkomiteen.Eller kanskje det holder med enten deg eller Esquil, siden dere er såpass enige?

Harald – takk for mail. Jeg fikk åpnet vedlegget, men så gikk harddisken i stå. Den inni hodet mitt også. Jeg klarte så vidt å lese siste avsnitt, der du nevner 13 ulike bokstavtegn og fem bokstaver. I tillegg har du lagt inn enda en begrensning, nemlig at hver bokstav kun kan brukes en gang pr ord. Dermed får du 13 x 12 x 11 x 10 x 9 = 154.440 mulige kombinasjoner, og et språk med korte ord. Godkjent og 3 poeng. Spennende tanke. Og med all din kunnskap om ulike skrift- og talespråk (mailen inneholdt elementer fra hebraisk, etiopisk fidel og japansk kana…), er du selvskreven i den nye språkkomiteen.

Takk for din deltagelse! Kjekt at så mange matematikknerder har sittet inne i påsken og knekket påskeegg!

haraldhauge sa...

Mitt grusomt lange og altfor pretensiøse svarforslag er nå publisert som en kommentar på min egen blogg. Du finner den her.

Nissemann sa...

Du er en grundig mann, Harald. Svaret ditt var detaljert og interessant. Og det viser vel at du er den mest språkmektige av alle som har svart - vi andre er kanskje mest matematikere...

Et lite apropos: Morsealfabetet har kun to tegn (tre hvis vi teller med mellomrommet), men krever fryktelig mange tegn for å skrive et ord. Den motsatte ytterligheten er det kinesiske skriftspråket, med mange tusen tegn og korte ord. På midtpunktet mellom disse to ytterlighetene ligger løsningene som er sendt inn her.