7 : I dati e la loro struttura nella programmazione ( INT , REAL , CHAR , BOOL ) Vers . 1.1 – Marzo 2009
Di fatto soltanto per l ’ inglese , il latino e la lingua swahili sono sufficienti 128 caratteri di base : tutte le altre lingue hanno bisogno di altri caratteri ( ad esempio anche l ’ italiano usa le lettere acecentate non presenti tra i caratteri di base ). Il bit più significativo degli 8 bit del codice ASCII di base o risatretto può ewssere usato per aggiungere di fatto altri 128 caratteri poiche con 8 bit a disposizione è possibile rappresentare 2 8 = 256 combinazioni diverse tra loro .
NON ESISTE UN UNICO CODICE ASCII AD 8 BIT ma ne esistono diversi chiamati tabelle di codici a seconda della lingua da trattere che usa il proprio alfabeto . TUTTI I CODICI ASCII AD 8 BIT SONO COMPATIBILI CON IL CODICE ASCII A 7 BIT ( ossia hanno i primi 128 caratteri rappresentati uguali ). L ’ ISO ha ovviamente regolamentato tutte queste estensioni con la serie ISO 8859 : quello 8859-1 chimato anche ISO Latin-1 contiene i caratteri dell ’ alfabeto latino più esteso in grado di rappresentare la maggioranza delle lingue europee ( italiano compreso ) ed è stato riconosciuto come ASCII esteso ad 8 bit .
Il codice ASCII ad 8 bit non è adatto alle lingue orientali che usano migliaia di ideogrammi ciascuno dei quali corrisponde non ad un suono ( come invece fa una lettera ) ma ad un intero concetto o parola . E ’ necessaria una codifica che utilizzi almeno 16 bit e quindi 2 16 = 65536 possibili caratteri .
Nel 1991 è stato istituito il consorzio Unicode che ha definito uno standard a 16 bit noto con il nome di set di caratteri UNICODE che comprende le lettere di tutti gli alfabeti , molti simboli speciali ed ideogrammi ; se un elemento appartiene a più lingue compare una volta sola e questo vale anche per l ’ insieme degli ideogrammi indicato con le lettere CJK ( cinese , giapponese , coreano . I primi 128 caratteri sono gli stessi del codice ASCII ristretto ed i primi 256 sono gli stessi del codice ASCII ad 8 bit esteso o Latin-1 .
Nel 1993 l ’ ISO ha definito un nuovo standard chiamato ISO 10646 e la relativa codifica UCS-4 ossia Universal Character Set a 4 byte . Per la codifica vengono usati 4 byte con il primo bit posto a 0 e quindi con effettivamente 31 bit a disposizione che permettono di rappresentare 2 31 = 2.147.483.648 caratteri . In questo standard un blocco di 256 posizioni di codifica successive viene chiamato riga , 256 righe costituiscono un livello e 256 livelli un gruppo . In tutto ci sono 128 gruppi . Questo set di carettri 10646 è il set di caratteri indicato nella specifica del lòinguaggio HTML 4.0
Il dato di tipo carattere va racchiuso tra apici singoli ( ciò è fondamentale per distinguere il numero 9 dalla carattere ‘ 9 ’). Una stringa è un insieme di caratteri che , come il singolo carattere , va racchiusa tra apici . Operatori relazionali associati al tipo carattere < minore ≤ minore o uguale > maggiore ≥ maggiore o uguale = uguale ≠ diverso
Tali operatori forniscono un risultato boolenao ossia che assume valore solo VERO oppure solo FALSO e vengono risolti in base al valore relativo asociato contenuto nel codice ASCII .
N . B . Nella PSEUDOCODIFICA per la dichiarazione di una variabile di questo tipo usare REAL
Autore : Rio Chierego ( email : riochierego @ libero . it - sito web : http :// digilander . libero . it / rijo ) Pag . 11