Kaj Je Entropija Datoteke

Kaj Je Entropija Datoteke
Kaj Je Entropija Datoteke

Video: Kaj Je Entropija Datoteke

Video: Kaj Je Entropija Datoteke
Video: ¡Tráiler del episodio 218 de la serie Emanet! 2024, April
Anonim

Vsaka računalniška datoteka je sestavljena iz bajtov. Bajt ima lahko vrednosti od 0 do 255. Informacijska entropija je statistični parameter, ki prikazuje verjetnost pojava določenih bajtov v datoteki.

Kaj je entropija datoteke
Kaj je entropija datoteke

Stopnjo entropije lahko vizualno ocenite s pomočjo histograma - porazdelitve verjetnosti ponovitve istih bajtov v datoteki. Po entropiji datoteke lahko ugibamo, kakšna vrsta datoteke je pred nami, saj vidimo le njen histogram.

Za predstavitev vzemimo tri datoteke različnih vrst in primerjajmo njihove histograme. Naj bo prva besedilna datoteka (*. TXT). Njegov histogram je prikazan na sliki:

гистограмма=
гистограмма=

Besedilna datoteka vsebuje samo besedilo. Vsak znak besedila je kodiran z določenimi bajti v skladu s tabelo kodiranja. Čeprav obstaja veliko število vrst kodiranja, je očitno, da obstaja omejeno število alfanumeričnih znakov, kar je običajno manj kot 255. Zato so na prvem histogramu zasedena le nekatera območja, nekateri bajti pa sploh ne.

Naslednja datoteka bo v obliki PDF:

гистограмма=
гистограмма=

Ta datoteka vsebuje vse možne bajte, saj je PDF kodiran drugače kot besedilne datoteke. Shranjuje veliko servisnih informacij: oblikovanje, pisave, slike itd. Toda njegov histogram kaže, da se nekateri bajti pojavljajo s približno enako verjetnostjo, drugi pa veliko pogosteje kot drugi. Od tod večkratni ostri izbruhi na histogramu in na splošno ima precej "raztrgan" videz, čeprav zavzema celotno razpoložljivo širino.

In zadnja datoteka je stisnjena v obliki 7Z:

гистограмма=
гистограмма=

Ta histogram ima dve glavni značilnosti: prvič, vsi bajti se nahajajo v stisnjeni datoteki z bolj ali manj enako verjetnostjo (dokaj raven zgornji rob), in drugič, nad histogramom praktično ni prostega prostora, kar kaže na skoraj popolno odsotnost odvečnosti take datoteke. Zato lahko sklepamo, da algoritem arhivarja na nek poseben način "zmeša" bajte datoteke, da doseže njihovo maksimalno enakomerno porazdelitev.

Tako je entropija v računalništvu, tako kot v fiziki, merilo motnje v sistemu, v tem primeru motnje pri porazdelitvi bajtov v datoteki. Entropija vam omogoča, da presodite stopnjo stiskanja datoteke in - posredno - o njeni vrsti.

Priporočena: