Mikä on ero ASCII: n ja Unicode-tekstin välillä?

ASCII ja Unicode ovat molemmat standardeja, jotka viittaavat tekstin, erityisesti tekstiä muodostavien merkkien, digitaaliseen esitykseen. Nämä kaksi standardia ovat kuitenkin merkittävästi erilaisia, ja monet ominaisuudet heijastavat niiden luomisjärjestystä.

Amerikka vs. maailmankaikkeus

American Standard Code for Information Interchange (ASCII) palvelee yllättäen amerikkalaista yleisöä kirjoittamalla englanninkielisillä aakkosilla. Se käsittelee korostamattomia kirjaimia, kuten A-Z ja a-z, sekä pienen määrän välimerkkejä ja ohjausmerkkejä.

Erityisesti ei ole mitään tapaa edustaa lainasanoja, jotka on otettu käyttöön muilta kieliltä, kuten kahvila ASCII: ssa ilman, että ne on viety korostamalla merkkejä (esim. kahvila). Lokalisoidut ASCII-laajennukset kehitettiin vastaamaan eri kielten tarpeisiin, mutta nämä ponnistelut tekivät yhteentoimivuudesta hankalaa ja venyttivät selvästi ASCII: n ominaisuuksia.

Sen sijaan yleinen koodattu merkistö (Unicode) sijaitsee kunnianhimoisen asteikon vastakkaisessa päässä. Unicode yrittää palvella mahdollisimman monta maailman kirjoitusjärjestelmää siltä osin kuin se kattaa muinaiset kielet ja kaikkien suosikkisarjat ilmaisevista symboleista, emojista.

instagram viewer

Merkistö tai merkkikoodaus?

Yksinkertaisesti sanottuna merkistö on joukko merkkejä (esim. A-Z), kun taas merkki koodaus on kartoitus merkistöstä ja arvosta, joka voidaan esittää digitaalisesti (esim. A = 1, B = 2).

ASCII-standardi on käytännössä molemmat: se määrittelee edustamiensa merkkien joukon ja menetelmän kunkin merkin kartoittamiseksi numeeriseen arvoon.

Sen sijaan sanaa Unicode käytetään useissa eri yhteyksissä tarkoittamaan erilaisia asioita. Voit ajatella sitä kaikenkattavana terminä, kuten ASCII, viitataksesi merkistöön ja useisiin koodauksiin. Mutta koska koodauksia on useita, termiä Unicode käytetään usein viittaamaan merkkien kokonaisuuteen sen sijaan, miten ne on kartoitettu.

Koko

Laajuudestaan johtuen Unicode edustaa paljon enemmän merkkejä kuin ASCII. Standardi ASCII käyttää 7-bittistä aluetta 128 erillisen koodaamiseen merkkiä. Toisaalta Unicode on niin suuri, että meidän on käytettävä erilaista terminologiaa vain puhuaksemme siitä!

Unicode palvelee 1111998 osoitettavissa koodipisteet. Koodipiste on suunnilleen analoginen merkille varatun tilan kanssa, mutta tilanne on paljon monimutkaisempi kuin silloin, kun aloitat syventyä yksityiskohtiin!

Hyödyllisempi vertailu on, kuinka monta komentosarjaa (tai kirjoitusjärjestelmää) tuetaan tällä hetkellä. Tietysti ASCII käsittelee vain englanninkielisiä aakkosia, lähinnä latinalaista tai roomalaista kirjoitusta. Vuonna 2020 tuotettu Unicode-versio menee paljon pidemmälle: se sisältää tuen yhteensä 154 skriptille.

Varastointi

ASCII: n 7-bittinen alue tarkoittaa, että kukin merkki tallennetaan yhteen 8-bittiseen tavuun; varaosaa ei käytetä tavallisessa ASCII: ssa. Tämä tekee kokolaskelmista vähäpätöisiä: tekstin pituus merkkeinä on tiedoston koko tavuina.

Voit vahvistaa tämän seuraavalla bash-komentojen jaksolla. Ensin luomme tiedoston, joka sisältää 12 kirjainta tekstiä:

$ echo -n 'Hei, maailma'> foo

Voit tarkistaa, että teksti on ASCII-koodauksessa, käyttämällä tiedosto komento:

$ tiedosto foo
foo: ASCII-teksti, ilman rivinpäätteitä

Lopuksi, jotta saat tarkan tavun määrän tiedostolla, käytämme til komento:

$ stat -f% z foo
12

Koska Unicode-standardi käsittelee paljon suurempaa merkistöaluetta, Unicode-tiedosto vie luonnollisesti enemmän tallennustilaa. Kuinka paljon riippuu koodauksesta.

Toistamalla samat komentosarjat aiemmasta käyttämällä merkkiä, jota ei voida edustaa ASCII: ssa, saadaan seuraava:

$ echo -n '€'> foo
$ tiedosto foo
foo: UTF-8 Unicode-teksti, ilman rivinpäätteitä
$ stat -f% z foo
3

Tämä yksi merkki vie 3 tavua Unicode-tiedostossa. Huomaa, että bash loi automaattisesti UTF-8-tiedoston, koska ASCII-tiedosto ei voi tallentaa valittua merkkiä (€). UTF-8 on ylivoimaisesti yleisin merkkikoodaus Unicodelle; UTF-16 ja UTF-32 ovat kaksi vaihtoehtoista koodausta, mutta niitä käytetään paljon vähemmän.

UTF-8 on muuttuvaleveyskoodaus, mikä tarkoittaa, että se käyttää eri määrää tallennustilaa eri koodipisteille. Kukin koodipiste vie yhden ja neljän tavun, sillä tavallisemmat merkit vaativat vähemmän tilaa ja tarjoavat sisäänrakennetun pakkauksen tyypin. Haittana on, että tietyn tekstinpalan pituus- tai kokovaatimusten määrittäminen on paljon monimutkaisempaa.

ASCII on Unicode, mutta Unicode ei ASCII

Taaksepäin yhteensopivuuden varmistamiseksi ensimmäiset 128 Unicode-koodipistettä edustavat vastaavia ASCII-merkkejä. Koska UTF-8 koodaa nämä merkit yhdellä tavulla, mikä tahansa ASCII-teksti on myös UTF-8-teksti. Unicode on ASCII: n superset.

Kuten edellä on esitetty, monia Unicode-tiedostoja ei kuitenkaan voida käyttää ASCII-kontekstissa. Kaikki rajat ylittävät hahmot näytetään odottamattomalla tavalla, usein korvatuilla merkeillä, jotka ovat täysin erilaisia kuin aiotut.

Moderni käyttö

Useimmissa tapauksissa ASCII: ta pidetään suurelta osin vanhana standardina. Jopa tilanteissa, jotka tukevat vain latinankielistä kirjoitusta - joissa Unicoden monimutkaisuus on täysin tuettu esimerkiksi turhaa - yleensä on mukavampaa käyttää UTF-8: ta ja hyödyntää sen ASCII: ta yhteensopivuus.

Erityisesti verkkosivut tulisi tallentaa ja lähettää UTF-8: lla, joka on oletus HTML5: lle. Tämä on päinvastoin aikaisempaa verkkoa, joka käsitteli oletuksena ASCII-versiota, ennen kuin Latin 1 korvasi sen.

Muuttuva standardi

ASCII: n viimeinen tarkistus tehtiin vuonna 1986.

Sen sijaan Unicodea päivitetään edelleen vuosittain. Uusia komentosarjoja, merkkejä ja erityisesti uusia emojia lisätään säännöllisesti. Kun vain pieni osa näistä kohdennetaan, koko merkistö todennäköisesti kasvaa ja kasvaa lähitulevaisuudessa.

Liittyvät: 100 suosituinta selitettyä emojia

100 suosituinta selitettyä emojia

Hymiöitä on niin paljon, että voi olla vaikea tietää, mitä ne kaikki tarkoittavat. Tässä ovat suosituimmat selitetyt emojit.

ASCII Versus Unicode

ASCII palveli tarkoitustaan vuosikymmenien ajan, mutta Unicode on nyt korvannut sen tehokkaasti kaikkiin muihin käytännön tarkoituksiin kuin vanhoihin järjestelmiin. Unicode on suurempi ja siten ilmeikkäämpi. Se edustaa maailmanlaajuista yhteistyötä ja tarjoaa paljon enemmän joustavuutta, vaikkakin jonkinasteisen monimutkaisuuden kustannuksella.

Sähköposti

Mikä on ASCII-teksti ja miten sitä käytetään?

ASCII-teksti näyttää salaukselta, mutta sillä on monia käyttötarkoituksia Internetissä.

Liittyvät aiheet

Teknologia selitetty
Hymiöt
Jargon
Verkkokulttuuri
Unicode

Kirjailijasta

Bobby Jack (23 artikkelia julkaistu)

Bobby on tekniikan harrastaja, joka työskenteli ohjelmistokehittäjänä kahden vuosikymmenen ajan. Hän on intohimoinen pelaamiseen, työskentelee Review Player -lehdessä Switch Player -lehdessä ja on upotettu verkkojulkaisun ja verkkokehityksen kaikkiin osa-alueisiin.

Lisää artistilta Bobby Jack

Tilaa uutiskirjeemme

Liity uutiskirjeeseemme, jossa on teknisiä vinkkejä, arvosteluja, ilmaisia e-kirjoja ja erikoistarjouksia!

Vielä yksi askel !!!

Vahvista sähköpostiosoitteesi juuri lähettämässäsi sähköpostissa.

About Technology - denizatm.com

Mikä on ero ASCII: n ja Unicode-tekstin välillä?

Amerikka vs. maailmankaikkeus

Merkistö tai merkkikoodaus?

Koko

Varastointi

ASCII on Unicode, mutta Unicode ei ASCII

Moderni käyttö

Muuttuva standardi

ASCII Versus Unicode

Tilaa uutiskirjeemme

Vielä yksi askel !!!

Luokat

Recent Post

Löydä tiesi GY-271-kompassimoduulilla ja Arduinolla

Miksi ihmiset lopettavat BeRealin

Shakin pelaaminen Linux-päätteellä (SSH: n moninpelituella)