Bert's brein

geplaatst: 3-5-2014
 
reageer

Wat er minimaal nodig is om een bepaald telwoord in het Nederlands te interpreteren en te vertalen.

  1. inleiding
  2. Bij het stukje over de telwoorden kwam naar voren, dat de "bepaalde hoofdtelwoorden" beschreven kunnen worden als een beperkte set woorden plus een aantal regels om van die woorden andere woorden te maken. Dat maakt deze woorden een heldere, welomschreven groep oftewel een woordsoort. Bij deze een poging om te kijken wat er (minimaal) nodig is om een gesproken telwoord te begrijpen. Daarbij wordt gebruik gemaakt van de ideeën uit het grondslagen-stukje: taal begrijpen is decoderen of "parsen". De bevindingen van dit stukje vormen een begin van de nadere uitwerking van de begrippen coderen en decoderen.

  3. vierhonderddertienduizendachthonderdzevenenzestig
  4. Op een aparte pagina is uitgewerkt wat de hoorder minimaal moet doen om een auditief waargenomen getal te decoderen. Onderstaand geef ik alleen de conclusies met de daarbij gebruikte terminologie:

    terminologie en gebruikte notatie:
    LE staat voor Lexicaal Item
    LC staat voor Lexicaal Construct
    L* staat voor LE of LC
    indices bij L* geven de volgorde van uitspreken/horen/verwerken aan.
    → staat voor "specifiy": het L* verandert de betekenis van het navolgende L*
    ← staat voor "complement": het L* verandert de betekenis van het voorgaande L*

    bereikte conclusies m.b.t. decoderen van getallen:
    1. L* + L* = LC
    2. Als:  L*1  < L*2
      Dan: L*1  → (L*2)
      semantiek: vermenigvuldig-relatie
      beperking:
      LE2 = {honderd, duizend, miljoen, ....}
      L* is alleen welgevormd als L*2 minimaal 1 orde groter is dan L*1
    3. Als: L*1  > L*2
      Dan: [L*1] ← (L*2)
      semantiek: optel-relatie
    4. Als LE1 element van {der-, veer-, vijf, zes, zeven, acht, negen}
      en
      Als LE2 = {tien}
      Dan LE1  → (LE2)
      semantiek: optel-relatie.
    5. Als LE1 element van {twin-, der-, veer-, vijf, zes, zeven, tacht, negen}
      en
      Als LE2 = {-tig}
      Dan [LE1] ←  LE2
      semantiek: vermenigvuldig-relatie.
    6. Als LE + "en"
      Dan LE1→ (LE2)
      semantiek: "en" modificeert de "standaard" specify-relatie van "vermenigvuldigen" naar "optellen"
      beperking:
      LE2 = {twintig, dertig, veertig, vijftig, zestig, zeventig, tachtig, negentig}
    Wellicht kan één en ander nog compacter worden geformuleerd, mogelijk zijn er beperkingen in de volgorde, maar het idee lijkt me duidelijk.
    Bij deze set regels hoort een specifiek lexicon: {één, twee, drie, vier, vijf, zes, zeven, acht, negen, tien, elf, twaalf, der-, veer-, -tig, twin-, tach-, honderd, duizend, en}.
    Onderdeel van de semantiek van dit lexicon moet zijn in welke orde de verschillende getallen zich bevinden.

  5. van decoderen naar coderen
  6. Decoderen alleen heeft geen enkele zin, als er niet ook gecodeerd kan worden. De coderingsregels moeten tot op zekere hoogte de decoderings-regels spiegelen.
    Nota bende: het is niet op voorhand bekend in wat voor vorm zich een getal zich in het brein bevindt voordat het uitspreken dwingt er een woord voor samen te stellen. Het onderstaande is dus zeer tentatief, en wellicht alleen geldig als een getal in zijn geheel "klaarstaat", bijvoorbeeld als het voorgelezen of vertaald wordt. In het geval dat het woord nog moet worden samengesteld tijdens het spreken zijn er wellicht andere regels nodig.
    1. Als LC < 12
      Dan LC = LE
      Anders: Routine 1
    2. routine 1:
      1. zoek de hoogst mogelijke ordinaal LEx
      2. (conditie) LE(x) is element van ordinale getallen {tien, honderd, duizend, ... }
      3. LC = [LC1 → (LEx) ] ← LCrest
      4. herhaal met LC1 totdat aan conditie niet meer is voldaan.
      5. ga daarna met de overgebleven LC naar routine 2
      6. werk zo het hele getal van links naar rechts af
      Routine 1 splitst het getal 413867 achtereenvolgens in:
      [LC1→(1000)] ← LCrest
      [(LC2→ (100)) → (1000)] ← LCrest
      [LC(rest1)](100) ← LC(rest2)](1000)] ← [[LC(rest3)](100) ← LC(rest4)]
    3. routine 2:
      1. zoek binnen LC naar het achterste LE = LE(x)
      2. Als: LCx = {1,2,3,4,5,6,7,8,9,11,12}
        Dan: LC = LEx [m.a.w.: we zijn klaar]

        Als LEx= 10
        Dan LC = LE1 → LE2

        Als LC(x) = "LE1 + (LE2 * 10)"
        Conditie LE2 > 1
        Dan LC = LE1 → ([LE2] ← + "-tig")
        Als LE1 ≠ 0
        Dan LE1 = LE1 + "en"
        In al deze gevallen kan LC niet verder worden teruggebracht, dus we zijn klaar.
        De volgorde van de regels kan van belang zijn: we genereren wel: "een-en-zestig-honderd" maar niet "zestig-honderd" omdat in het laatste geval er een hogere ordinaal is. Bij decoderen zou "zestig-honderd" vreemd voorkomen omdat het nooit wordt gegenereerd, maar anderzijds ook niet verboden (en dus niet oninterpreteerbaar) zijn.
      nota bene: pas als op bovenstaande wijze de structuur is bepaald, kunnen de lexicale elementen worden voorzien van een definitieve klankvorm (anders zouden de elementen {der- veer- twin- en tacht-} niet correct gekozen kunnen worden. Welke elementen worden gekozen is afhankelijk van de regel die is gebruikt. Er moet dus binnen dit model een directe relatie zijn tussen de regels en de klankvorm.
    Ik realiseer me al te goed dat dit een vrij knullige beschrijving is van een computer-routine. Hoewel niet exact gespiegeld, zijn de overeenkomsten tussen coderen en decoderen overduidelijk: routine 2 behandelt die "tien-regel", de "-tig-regel" en de "en-regel". De eerste routine behandelt de rest.

  7. conclusies en opmerkingen
  8. Als mijn wijze van het modelleren van regels voor coderen en decoderen in hun samenhang ook maar enigszins in de goede richting zit, zijn er een paar aardige conclusies mogelijk:
    1. aan de efficiency these kan worden voldaan
      Door routine 2 los te laten op de 1ste LC die daarvoor in aanmerking komt, kan de spreker al vrij snel beginnen met het uiten van klankvormen, terwijl de twee routines verder werken aan het vervolg. Dit is efficient (de luisteraar hoeft niet te wachten) en sluit goed aan bij een parsende luisteraar. De meest relevante informatie -i.e. de orde van grootte van het getal- komt waar dat nodig is -bij de getallen groter dan honderd- vooraan in de stroom.
    2. zowel coderen als coderen moet worden ingezet bij het voorlezen van een getal
      Als een fransman het getal 86 moet voorlezen, komt hij met "quatre-vingt-seize" In de cijfermatige weergave is er geen quatre (8) en geen vingt (20) te vinden. Daarom moet eerst het decoderingsproces hebben plaatsgevonden, en daarna het opnieuw coderen. In dit stadium lijkt het belangrijk dat deze twee sets regels op de een of andere manier op elkaar aansluiten.
    3. De opbouw van de coderings/decoderings-regels geeft een nieuwe ingang aan het reconstrueren van taalgeschiedenis.
      In de getallen zijn drie lagen te zien:
      De oudste laag gaat tot 10, met daarna een optel/aftrek systeem bij twaalf (= (10 met) twi lef = twee over; en elf ( i lef = één over)
      Jonger moet zijn de laag tot honderd, die gebruik maakt van de combinatie optellen en vermenigvuldigen, bijvoorbeeld bij zeven-en-twintig. De volgorde is eerst het kleinste toegevoegde onderdeel, en daarbij opgeteld de orde van grootte. Toegevoegd zijn de "-en-"-constructie en het element "-tig"
      Nog jonger is het systeem van de grote getallen. Daarbij wordt enerzijds gebruik gemaakt van het vermenigvuldigings-element uit de 2de laag (200 heeft dezelfde verbale structuur als twintig: eerst de term waarmee wordt vermenigvuldigd, en dan pas de orde van grootte. Tegelijkertijd gebruikt het een optel-systeem (235 = tweehonderd + vijfendertig). Nu staat echter de orde van grootte voorop. Voorts zijn er geen nieuwe elementen toegevoegd.
      In zijn algemeenheid geldt dat de noodzaak voor grotere getallen pas ontstaat bij het gebruik van handel die moet kunnen worden uitgedrukt in geld. Zie hiervoor David Graeber DEBT, en dit wikipedia artikel. Bij handel met geld is het praktisch om eerst de grotere eenheden uit te tellen, en daarna pas de kleinere.
      Het "in schillen" toevoegen van regels lijkt in strijd met de efficiency-these, maar is dat zeker niet. Het is niet efficient (misschien niet eens mogelijk) om een heel subsysteem van de taal (i.e. de wijze waarop getallen hun klankvorm krijgen) in een keer -of zelfs maar in een generatie- te vervangen. Wel is het mogelijk om nieuwe regels toe te voegen die aansluiten bij een nieuwe behoefte. Taal ondergaat in die zin een soort evolutie. Het eindresultaat is niet het systeem dat je zou ontwerpen als je vanaf nul zou mogen beginnen, maar het functioneert in ieder geval wel. Aardig is, dat we bij de notatie van getallen op een gegeven moment wél opnieuw zijn begonnen: in de late middeleeuwen zijn we overgestapt van het nogal complexe systeem van romeinse cijfers naar een positionele notering. De regels daarvoor zijn relatief eenvoudig:
      LC = LE ← rest
      semantiek: LE staat voor LE x 10^positie, positie telt 0 vanaf rechts, dus:
      413867 = [[[[[4*10^5]← [1*10^4]] ← [3*10^3]]← [8*10^2]] ← [6*10^1]] ← [7*10^0]
      Als gevolg van deze nieuwe notatie is er een grote discrepantie ontstaan tussen datgene wat we in cijfers noteren en datgene wat we verbaal uiten (i.e. hoe we het getal voorlezen)
    4. bij de beschrijving van getallen voor specifiek gebruik (bijvoorbeeld jaartallen) kunnen andere regels gelden. We kunnen het hebben over zestienhonderd-tien, maar ook over zestien-tien. Wanneer getallen alleen nominaal zijn (bijvoorbeeld telefoonnummers) breken we het doorgaans op in getallen onder de 1000.
    5. rangtelwoorden worden gemaakt door de LE "-ste" of "de" toe te voegen aan het laatste LE(voordat de klankvorm wordt bepaald): -ste bij {1,8, ordinalen} en -de bij de rest. Wellicht moet e.e.a. zo worden geformuleerd dat 1 ook in de subsoort ordinalen valt.
    6. De twee samenhangende sets regels geven een andere richting aan de manier waarop we taalkunde zouden kunnen bedrijven:
      1. Bij coderen: eerste de (morfologische, syntactische) regels, dan pas de definitieve keuze voor de klankvorm. Aan specifieke regels kunnen specfieke klankvorm-elementen verbonden zijn, zoals {-tig, der, veer, ...}
      2. Bij decoderen: eerst de klankvorm en dan de regels. De klankvorm zelf (bijvoorbeeld: -tig) kan richting geven aan de regels die moeten worden toegepast
      3. Bij coderen en decoderen: elementen kunnen "vlaggetjes" plaatsen die het decoderen vereenvoudigen. Na het element "-tig" komt er altijd een haakje: bij 70.000 weet ik eerst bij 70 dat 1) het getal is afgelopen of 2) de 70 een specifier is voor een getal van een orde groter (i.e. honderd, duizend, miljoen....) Dit stelt de hoorder in staat om te anticiperen.
      4. bij coderen en decoderen: er kunnen elementen in de klankvorm worden geplaatst die alleen als functie hebben een semantische regel te modificeren: het tussenvoegsel "en" verandert de relatie tussen (zeven, veertig). Hier zien we wel een vorm van reduntantie, want ook zonder die "en" zouden we waarschijnlijk wel begrijpen dat e.e.a. moet worden opgeteld, maar bij (zeven, tien) niet. Mogelijk maakt het plaatsen van dit "vlaggetje" het decoderen toch eenvoudiger en/of eenduidiger. Mogelijk kan de hoofdregel voor de grote getallen alleen als hoofdregel bestaan, als de "en"-regel in de subregels staat.
      5. semantiek is niet zozeer iets van de relatie tussen woorden en datgene waar ze naar verwijzen, maar zeker ook een eigenschap van de regels die relaties leggen tussen de woorden
      6. bij coderen: ambiguiteit ontstaat als twee verschillende zinnen (i.e. een aantal betekenisdragende elementen in hun samenhang) dezelfde klankvorm opleveren - (maar niet dezelfde structuur):
        Neem een zin als:
        Ik heb sinterklaas zelf gezien
        Bij coderen zijn er twee mogelijke betekenissen voor het element "zelf". Het kan een complement zijn bij "Ik" of een complement bij "sinterklaas".
      7. Als de relatie tussen regels en klankvorm zo hecht is, is het voorstelbaar dat niet alle woorden zijn in te delen in een beperkte groep "woordsoorten". Een element als "zelf" -dat ook in de schoolgrammatica betrekkelijk los staat- kan als individueel woord een eigen setje regels hebben. Ook combinaties van specifieke en algemene regels lijken mogelijk. Dit zou het geval kunnen zijn bij de "archaïsche koppelwerkwoorden" {dunken, voorkomen}. Omdat woorden met "eigen regels" aftelbaar en opsombaar zijn hoeft dit niet te leiden naar een oneindig grote grammatica.
      8. Bij decoderen: het is mogelijk dat er verschillen bestaan tussen het decoderen van visuele en auditieve input. Dit lijkt m.n. mogelijk bij de visuele weergave van een getal, omdat de normale relatie tussen uitspraak en letterpatroon soms lijk te ontbreken (96 = quatre-vingt-seize) Dit onderscheid is in de taalkunde bij mijn weten nog niet gemaakt
      9. de volgorde van de regels kan zorgen dat bepaalde syntactische structuren niet voorkomen (zestig-honderd). Locale en idiosyncratische verschillen tussen sprekers zouden een kwestie kunnen zijn van dezelfde regels in een andere volgorde.
    7. nawoord
    8. Wat mij betreft staat de bovengeschetste werkwijze model voor syntactische analyse. Mijn these is dat de structuur van een nominale groep, een voorzetsel(-groep) of een nominale determinator(-groep) op soortgelijke wijze tot stand komt. Het resultaat kan dan een zinsdeel zijn, dat is een kwestie van "vlaggetjes". Zinsdelen of woordsoorten zijn dan niet meer het uitgangspunt voor analyse. Het zoeken is naar regels met bijbehorend lexicon (en hun volgorde), waarmee gecodeerd en gedecodeerd kan worden op een efficiënte manier. Legitieme elementen daarbij zijn niet alleen woorden, maar ook dingen als de buigings -e in adjectieven, of de -t waarmee de 3de persoon enkelvoud wordt aangeduid. Daarmee worden syntaxis, morfologie en woordvorming één geheel.
      Dit is een grote breuk, zowel met de TGG als met de klassieke schoolgrammatica.
 

Bert's werk