border=0

Block binêre kodearring

Litte wy werom komme nei it probleem fan optimale kodearring. Boppedat waard it bêste resultaat (de lytste redundans) krigen as kodearring neffens de Huffman-metoade - foar de Russyske alfabet redundancy wie minder as 1 %. It waard oanjûn dat de koade Huffman net ferbettere wurde koe. Op 'e earste wize wurdt dit tsjinoer it earste diel fan' e Shannon, dat stiet dat it altyd mooglik is in kodingsmetoade te stjoeren dêr't redendens in willekeurige lytse kwaliteit is. Yn feite ûntstie dit tsjinspraak troch it feit dat wy oant no ta oan ús alfabetyske kodearring beheine. Yn alfabetysk kodearring is it trochferwillende berjocht in sekere fan koaden fan yndividuele karakters fan it primêr alfabet. Kodingsopsjes binne lykwols mooglik wêrby't in koade markearje op ferskate brieven fan it primêr alfabet ien kear (wy sille sa'n kombinaasje in blok neame ) of sels it hiele wurd fan 'e primêre taal. Blocking kodearret it redundante werom. Dit is maklik te sjen op in ienfâldige foarbyld.

Tink derom dat in wurdboek fan guon taal is n = 16000 wurden (dit is fansels mear as in folslein wurdskat!). Lit in unifoarm binêre koade oan elk wurd oantsjutte. Fansels is de lingte fan de koade fûn fan 'e relaasje K (A, 2) ≥ log 2 n ≥ 13.97 = 14. Dêrom wurdt elk wurd encodearre troch in kombinaasje fan 14 nullen en - jo krije in soarte fan binêre hieroglyphen. Lit bygelyks it wurd "INFORMATIC" oerienkomme mei de koade 10101011100110, it wurd "SCIENCE" - 00000000000001, en it wurd "INTERESTING" - 00100000000010; dan is de folchoarder:

Wiswier, sille betsjutte "INFORMATIK FERGEARING WISSEN".

It is ienfâldich om te skatten dat de trochsneed lingte fan it Russyske wurd K ( r ) = 6,3 letters (5,3 letters + romte tusken wurden) is de gemiddelde ynformaasje per karakter fan it primêr alfabet is lyk oan I ( A ) = K (A, 2) / K ( r ) = 14 / 6.3 = 2.222 bits, dy't mear as 2 kear minder dan 5 bits is mei ienige alfabetyske kodearring. Foar Ingelsk jout dizze kodearingsmetoade 2.545 bits per teken. Sa wurdt it kodearjen fan wurden feroarsake foar betterer as de alfabetyske.

Kodearring sil noch effektiver wêze as jo earst de relatyf frekwinsje fan it misbrûk fan ferskate wurden yn 'e teksten ynstelle en dan de koade Huffman brûke. Shannon die syn ferlykbere ûndersiken yn syn tiid: neffens de relative frequencies fan 'e 8727 meast brûkte wurden yn it Ingelsk, fûn hy dat de gemiddelde ynformaasje per karakter fan it primêre alfabet 2.15 bits is.

Yn stee fan wurden kinne jo letterkombinaasjes - blokken kodearje. Yn prinsipe kinne blokken as wurden fan gelikense lingte beskôge wurde, mar gjin semantyske ynhâld hawwe. Troch it útwreidzjen fan de blokken en it tapassen fan de Huffman-koade, is it teoretysk mooglik om te soargjen dat de gemiddelde ynformaasje per koade markearje werklik nei I ¥ .





Sjoch ek:

Foarbyld 4.11

Besykje fragen en taken

Alfabetyske kodearring mei ungewoane momint fan elementêre sinjalen. Morse koade

Foarbyld 4.16

Foarbyld 9.3

Gean werom nei Tafel Ynhâld: Teoretyske Stiftingen fan Computer Science

2019 @ edudocs.fun