border=0

Ynformaasje en alfabet

Troch de foarmen fan presintaasje fan 'e ynformaasje, fûnen se it feit dat de analoge foarm natuer is foar de minsklike sintugen, mar de universele moat as in diskrete foarm fan ynformaasjepresintaasje beskôge wurde mei help fan in beskate set fan tekeningen. Benammen it is op dy wize dat de presinteare ynformaasje ferwurke wurdt troch in kompjûter en oerbrocht fia kompjûter en inkele oare kommunikaallinen. It berjocht is in folchoarder fan tekens fan it alfabet. As se oerleverje, ûntstiet it probleem om it teken te erkennen: hoe't it berjocht lêzen wurdt , d. op de ûntfangen sinjalen om de earste seker fan tekens fan it primêr alfabet te fêstigjen. Yn mûnlinge spraak wurdt dit realisearre mei ferskate funksjes (basis-lûden fan ferskillende lûden), dêr't de spraakmakels ferskille. Skriftlik wurdt dit berikt troch in oare soartbrieven en ús fierdere analyze fan 'e skreaune. Hoe kin dit probleem oplost wurde troch in technysk apparaat, sille wy letter spylje. No is it wichtich dat jo in pear prosedure (meganisaasje) ynstelle kinne om troch in beskaat teken te selektearjen fan it berjocht. Mar it uterlik fan in bepaald teken (letter) op in bepaald plak yn in berjocht is in willekeurich barren. Dêrom freget de erkenning (identifikaasje) fan in teken in beskate diel fan ynformaasje. Jo kinne dizze ynformaasje ferpleatse mei it teken sels en nimt dat it teken in bepaalde ynformaasje opnittet (befettet). Litte wy besykje om dit bedrach te beskriuwen.

Litte wy begjinne mei de rûchste apsoarming (wy sille it nul neamd wurde, wat wurdt oanjûn troch de yndeks fan de bewarre wearden) - tocht dat it ferskinen fan alle letters (letters) fan it alfabet yn it berjocht lykas wierskynlik wêze. Dan foar it Ingelske alfabet n e = 27 (mei rekkenjen fan de romte as in ûnôfhinklike teken); foar it Russyske alfabet, n r = 34. Fan 'e Hartley-formule (2.15) fine wy:

It docht bliken dat yn 'n nulmankaasje, mei it teken fan it Russyske alfabet, yn trochsnee mear ynformaasje is ferbûn as mei it teken fan Ingelsk. Bygelyks yn 'e Russyske letter "a" is der mear ynformaasje as yn "a" Ingelsk! Dit betsjut gewoan net dat Ingelsk - de taal fan Shakespeare en Dickens - earmer is as de taal fan Pushkin en Dostojevski. De taalkundige rykdom fan in taal wurdt bepaald troch it oantal wurden en har kombinaasjes en is yn gjinien ferbûn mei it oantal letters yn it alfabet. Ut it tinken fan 'e technology betsjut dit dat berjochten fan in gelikensnûmer karakters ferskillende lengten hawwe (en, dêrtroch, oerjaan) en se sil >

As de folgjende (earste) approximaasje, dy't it orizjinele bepale, sille wy besykje te rekkenjen mei it feit dat de relativefrekwinsje, d. De wikseling fan ferskillende brieven yn 'e tekst (of berjocht) is oars. Tink de tabel fan middelste letters fan 'e brieven foar it Russyske alfabet, dy't ek in romte-karakter tafalt foar it skieden wurd (út it boek fan A. Yaglom en I. Yaglom [49, p.238]); Mei it each op 'e ûnferjitlikens fan' e letters "e" en "e", as ek "ü" en "ъ" (lykas is gewoan yn telegraaf kodearring) krije wy in alfabety fan 32 tekens mei de folgjende wjergastiken fan har optreden yn Russyske teksten:

Tabel 2.1

Om ynformaasje te hifkjen op 'e kar foar ien karakter fan it alfabet, mei it rekkenjen fan de ûnjildige winsklikheid fan har occurrence yn it berjocht (teksten), kinne jo de formule (2.14) brûke. Hjirfan folget it benammen dat as p i de probabiliteit (relatyf frekwinsje) fan karakternû ik fan dit alfabet fan N karakters is, dan is it gemiddelde bedrach fan ynformaasje per karakter lykas:

Dit is de ferneamde formule fan K. Shannon *, fan wa't wurk "Mathematical Theory of Communication" (1948) it gewoan is om te begjinnen dat it leeftyd fan kompjûterwittenskip as unôfhinklike wittenskip te fertsjinjen is. Foar it ding fan 'e objektiviteit moat it bepaald ûndersyks hast simultaneel mei Shannon yn ús lân, lykas yn deselde 1948, A. Kolmogorov syn wurk "The Mathematical Theory of Information Transmission" útjûn wurde.

* Yn feite waard de Shannon-formule, lykas de Hartley-formule, oarspronklik skreaun foar entropy. Lykwols, foar ús presintaasje liket in bettere foarm as de record te wurden troch it begryp fan ynformaasje.

Yn it algemien kin de ynformaasje dy't yn it berjocht befettet kin ôfhinklik fan it punt yn 't tiid dat it ûntfanger berikt. Bygelyks, in ûnferjitich waarferslach makket fansels net deselde ynformaasje as op tiid. It ultime gefal is de situaasje wêryn't alle ynformaasje dy't troch it berjocht oerbrocht wurdt wurdt fêststeld troch de tiid fan it kritearium; bygelyks de striid oeren of oproppe fan 'e les. Wol kinne der berjochten wêze dat de ynformaasje dy't yn har ynfierd is, net ôfhinklik fan de tiid fan ûntfangst. Benammen dy situaasje is realisearre as it probleem fan in teken yn in berjocht op 'e tiid ôfhinklik is, hyltyd it is itselde yn alle tiden en is lyk oan' e relative frekwinsje fan 'e teken p i yn' e folsleine folchoarder. Dêrtroch wurde de problemen fan tekens (relative frequencies) foar berjochten (teksten) bepaald dat in grut oantal tekens befetsje, sadat statistyske patroanen ferskine, en dan wurde allegeduerigen yn alle berjochten fan dizze boarne beskôge.

Berjochten wêrby't de kâns dat it ferskynsel fan elke individuele tekens feroaret mei tiid, wurdt Shannon neamd , en de sender , dy't har generearret , wurdt in Shannon-boarne neamd.

As it berjocht Shannon is, dan is it karakter set (alfabet) en de ynformaasje dy't oansletten is mei elke karakter binne bekend yn 'e foaroan. Yn dit gefal wurdt de ynterpretaasje fan it berjocht, dat in syklus fan sinjalen is, ferkocht nei it probleem fan tekenserkenning, d. Identifisearret krekt wat teken is op in bepaald plak fan it berjocht. En sa'n opjefte, lykas wy al yn 'e foarige paragraaf sjoen hawwe, kinne bepaald wurde troch in rige paar ferkiezings. It bedrach fan 'e ynformaasje dy't yn it teken befettet, betsjut as mjittigens fan' e kosten fan syn identiteit.

Ynformaasje teory wurdt spesjaal makke foar Shannon-berjochten, dus yn 'e takomst sille wy dit begjinpunt (betingst fan gebrûk) fan' e teory beskôgje en allinich sa't berjochten beskôgje.

It tapassen fan de formule (2.17) nei it alfabet fan 'e Russyske taal jout de wearde fan' e gemiddelde ynformaasje per teken I 1 ( r ) = 4.36 bits, en foar Ingelsk I 1 ( e ) = 4,04 bits, foar Frânsk I 1 ( f ) = 3 , 96 bits, foar Dútsk I 1 ( d ) - 4,10 bits, foar Spaansk I 1 ( s ) = 3.98 bits. As wy sjogge, foar sawol Russysk en Ingelsk, rekkenje de probabelen fan it ferskinen fan brieven yn berjochten liedt ta in ôfwiking fan 'e gemiddelde ynformaasjeynhâld fan in brief, dy't troch de wize de jildigens fan formule (2.7) befêstiget.

De ferskil tusken 'e betsjuttings fan' e ynformaasje yn 't Ingelsk, Frânsk en Dútsk is basearre op itselde alfabet, dat it gefal is dat de frekwinsjes fan it optreden fan deselde letters yn har oars binne.

De neikommende anneksaasjes by it skatteljen fan de wearde fan ynformaasje dy't it alfabetokken oanbe>korrelaasje wêze, d. ferbiningen tusken letters yn wurden. It feit is dat yn wurden wurden letters net yn elke kombinaasje ferskine; Dit feroaret de ûnwissigens fan 'e neikommende brief nei guon guon, bygelyks yn it Russysk, binne gjin wurden wêryn't in kombinaasje fan schc of ph is. En oarsom, nei inkele kombinaasjes is it mooglik om it optreden fan 'e folgjende brief te fersterkjen mei gruttere wissichheid as de reine gefal, bygelyks nei in mienskiplike kombinaasje, de vowelbrief altyd, en der binne 10 yn Russysk, en dus de winsklikens fan de folgjende brief 1/10 , net 1/33. Lykas yn 't oanjûn it boek fan L. Brillouin [7, p.46], mei rekkening fan twa-letterkombinaasjes yn Ingelsktalken sjogge de gemiddelde ynformaasje troch in teken foar de wearde I 2 ( e ) = 3.32 bits, mei trije lettertribingen nei I 3 (e) = 3,10 bit . Shannon koe yn 'e rin fan' e njoggentjinde i 5 (e) 2.1 bits en ik 8 ( e ) = 1.9 bits skatte. Ähnlike stúdzjes foar de Russyske taal jouwe: I 2 (r) = 3.52 bits; I 3 (r) = 3.01 bits De gefolch I 0 , I 1 , I 2 ... is ôfstammend yn elke taal. Ekstrapolearje it om mei te nimmen fan in unweardige tal korrelaasjes, men kin de beheindige ynformaasje op in teken skatte yn in bepaalde taal I ¥ , dy't de minimale ûnwissigens oanbe> , dy't ferbûn is mei de kar foar it alfabet-teken, sûnder rekken mei de semantyske funksjes fan 'e taal, wylst ik 0 in oar beheind kaas is omdat it karakterisearret de measte ynformaasje dy't yn it teken fan it alfabet wêze kin. Shannon stelde de wearde yn, dy't hy de relative redundancy neamde :

Redundancy is in mjitting fan mislearre alternatyf keuzes by it lêzen fan in tekst. Dizze wearde jout oan hokker persintaazje fan 'e ekstra ynformaasje yn' e teksten fan 'e opjûne taal befettet; geweldich yn dat it bepaald is troch de struktuer fan 'e taal sels en kin dus sûnder eksplisjearre yndikaasje yn alfabetyske foarm restaurearre wurde.

Shannon's ûndersyk foar it Ingelsk ûntfong I ¥ ≈ 1.4 ÷ 1.5 bits, dy't, mei respekt foar I 0 = 4,755 bits, redderens fan ûngefear 0,68 skept. Ferlykbere skatten litte sjen dat foar oare Europeeske talen, wêrûnder Russyske redundans, is 60 - 70%. Dit betsjut dat, yn prinsipe, hast trijefold (!) Reduksje fan teksten mooglik is sûnder foech foar har ynhâld en útdrukking. Bygelyks wurde telegrafteksjes koarter makke troch it ferbiningen fan alliânsen en foarsjennings sûnder skea oan 'e betsjutting; Se brûke ek einde ynterpretearre tekeningen "PTA" en "PST" ynstee fan folsleine wurden (dizze ôfkundingen moatte brûkt wurde, om't de tekeningen "." en "," binne net yn it telegrafaalfabet opnommen). In soart "ekonomysk" fertsjintwurdiging fan wurden beheart de yntelligibiliteit fan 'e taal, fergruttet de fermogen om taal te learen yn it oanwêzigens fan lûd (en dit is ien fan' e problemen fan ynformaasje oer echte kommunikaasjelinen) en ek de mooglikheid om it pleatsen en korrigearjen fan in flater (skriuwen of oertsjûge) as it komt. It is de redundancy fan 'e taal dy't it maklik makket om de tekst te werstellen, ek as it in grut oantal fouten befettet of is net kompleet (bygelyks by it meitsjen fan krúswurdpaden of as spielfjild fan Wûnders). Yn dit sin is redundans in bepaalde fersekering en in garânsje fan leefberens.





Sjoch ek:

Foarbyld 5.2

Fermelding

Berjocht konvertearje

Untwerpmodellen

Foarbyld 4.8

Gean werom nei Tafel Ynhâld: Teoretyske Stiftingen fan Computer Science

2019 @ edudocs.fun