L’encodage de textes numériques est réalisé à partir de tables développées selon les besoins de chaque pays. La table de codage la plus connue est la table ASCII qui permet d’encoder les caractères les plus courants de la langue anglaise.
UNICODE est un consortium crée pour rassembler toutes les tables de codage en une seule afin de pouvoir traiter les textes multilingues ainsi que toutes les écritures.
Le codage des caractères est réalisé sur 4 octets, ce qui a pour effet de multiplier la taille des fichiers par 4, ce qui n’est pas sans conséquences. Ainsi, UNICODE permet plusieurs encodages : UTF-8 (1 octet), UTF-16 (2 octets), UTF-32 (4 octets).
Les langages de programmation avancée actuels acceptent UNICODE, de même que les navigateurs web… Le codage des images et du son est basé sur le même principe.
Un format candidat à l’archivage devra être documenté, être utilisé sur un parc logiciel important et être soutenu par des organismes internationaux. Le format candidat à l’archivage sera apprécié sur des critères d’ouverture, de normalisation, de brevabilité, d’inclusion de métadonnées, de dépendance vis à vis d’autres formats, d’OS, de dépendance économique et matérielle.