Сьцісканьне зьвестак

працэс шыфраваньня інфармацыі з зьмяншэньнем выніковага аб’ёму зьвестак

Сьцісканьне зьвестак — працэдура перакадаваньня зьвестак, якая ажыцьцяўляецца з мэтай памяншэньня іх аб’ёму. Ужываецца для больш рацыянальнага выкарыстаньня сродкаў захоўваньня і перадачы зьвестак.

Сьцісканьне бывае бяз стратаў (калі магчымае аднаўленьне зыходных дадзеных без скажэньняў) або са стратамі (аднаўленьне магчымае з малаважнымі скажэньнямі). Сьцісканьне бяз стратаў выкарыстоўваецца пры апрацоўцы кампутарных праграмаў і зьвестак. Сьцісканьне з стратамі звычайна ўжываецца для скарачэньня аб’ёму гукавай, фота- і відэаінфармацыі, яно значна больш эфектыўнае за сьцісканьня бяз стратаў.

Сьцісканьне заснаванае на пазбаўленьні надмернасьці інфармацыі, якая зьмяшчаецца ў зыходных дадзеных. Прыкладам надмернасьці зьяўляецца паўтор у тэксьце фрагмэнтаў (напрыклад, слоў натуральнай або машыннай мовы). Падобная надмернасьць звычайна выдаляецца заменай паслядоўнасці, якая паўтараецца, карацейшым значэньнем (кодам). Іншы выгляд надмернасьці зьвязаны з тым, што некаторыя значэньні ў зьвестках, якія сьціскаюцца, сустракаюцца часьцей за іншя, пры гэтым магчыма замяняць частыя дадзеныя карацейшымі кодамі, а рэдкія — даўжэйшымі (імавернаснае сьцісканьне). Сьцісканне апісаным чынам дадзеных, якія не валодаюць уласцівасьцю надмернасьці (напрыклад, выпадковы сыгнал або шум), немагчымае. Таксама, звычайна немагчыма сьціснуць зашыфраваную інфармацыю.

Альгарытмы сьцісканьня тэкстаў/файлаў невядомага фармату

рэдагаваць

Маецца 2 асноўных падыходы да сьцісканьня файлаў невядомага фармату.

  • На кожным кроку альгарытму сьцісканьня наступны сымбаль зьмяшчаецца як ёсьць (з адмысловым сьцягам, які азначае, што ён ня сьціснуты), альбо паказваюцца межы слова з папярэдняга кавалка, якое супадае з наступнымі сымбалямі файла. Разархіваваньне файлаў сьціснутых такім чынам выконваецца вельмі хутка, таму гэтыя альгарытмы выкарыстоўваюцца для стварэньня самараспакоўных праграм.
  • Для кожнай пасьлядоўнасьці ў кожны момант часу зьбіраецца статыстыка яе сустракальнасьці у файле. На яе аснове вылічаецца верагоднасьць значэньняў для чарговага сымбалю. Пасьля гэтага можна ўжываць арытмэтычнае кадаваньне або кадаваньне Хафмана для замены часта пасьлядоўнасьцяў, якія сустракаюцца часта, на карацейшыя, а пасьлядоўнасьцяў, якія сустракаюцца рэдка, — на даўжэйшыя.