数据/信息表示



计算机不理解人类语言;它们理解规定的格式内的数据。数据表示是一种表示数据并将其编码到计算机系统中的方法。通常,用户输入数字、文本、图像、音频和视频等类型的数据进行处理,但计算机首先将这些数据转换为机器语言,然后对其进行处理。

一些常见的数据表示方法包括:

Methods

数据表示在存储、处理和数据通信中起着至关重要的作用。正确有效的数据表示方法会影响数据处理性能和系统兼容性。

计算机以以下形式表示数据:

数制

计算机系统将数字视为数据;它包括整数、小数和复数。所有输入的数字都以二进制格式(如0和1)表示。数制分为四种类型:

  • 二进制 - 二进制数制是数字系统中所有用于数据表示的数字的基础。二进制数制仅包含两个值,0或1;因此它的基数为2。它可以向外部世界表示为(10110010)2。计算机系统使用二进制数字(0和1)在内部表示数据。
  • 八进制 - 八进制数制用8个数字表示值。它包含数字0,1,2,3,4,5,6和7;因此它的基数为8。它可以向外部世界表示为(324017)8
  • 十进制 - 十进制数制用10个数字表示值。它包含数字0, 1, 2, 3, 4, 5, 6, 7, 8和9;因此它的基数为10。它可以向外部世界表示为(875629)10
  • 十六进制数 - 十六进制数制用16个数字表示值。它包含数字0, 1, 2, 3, 4, 5, 6, 7, 8和9,然后包含字母A, B, C, D, E和F;因此它的基数为16。其中A代表10,B代表11,C代表12,D代表13,E代表14,F代表15。

    下表总结了数制的数据表示及其基数和数字。

数制
系统 基数 数字
二进制 2 0 1
八进制 8 0 1 2 3 4 5 6 7
十进制 10 0 1 2 3 4 5 6 7 8 9
十六进制 16 0 1 2 3 4 5 6 7 8 9 A B C D E F

位和字节

位是计算机在计算中使用的最小数据单元;计算机系统完成的所有计算任务都基于位。位表示0或1的二进制数字。计算机通常成组使用位。它是数字计算中信息存储和通信的基本单元。

字节

八位一组称为字节。半个字节称为半字节;这意味着四位一组称为半字节。字节是计算机内存和存储的基本可寻址单元。它可以使用ASCII和Unicode等编码方法来表示单个字符,例如字母、数字或符号。

字节用于确定文件大小、存储容量和可用内存空间。一个千字节(KB)等于1024字节,一个兆字节(MB)等于1024 KB,一个吉字节(GB)等于1024 MB。文件大小大致以KB为单位测量,内存空间的可用性以MB和GB为单位测量。

Bytes

下表显示了位和字节的转换:

字节值 位值
1 字节 8 位
1024 字节 1 千字节
1024 千字节 1 兆字节
1024 兆字节 1 吉字节
1024 吉字节 1 太字节
1024 太字节 1 拍字节
1024 拍字节 1 艾字节
1024 艾字节 1 泽字节
1024 泽字节 1 尧字节
1024 尧字节 1 勃字节
1024 勃字节 1 乔字节

文本代码

文本代码是一种静态代码,允许用户插入文本,其他人扫描时可以看到。它包括字母、标点符号和其他符号。一些最常用的文本代码系统包括:

  • EBCDIC
  • ASCII
  • 扩展ASCII
  • Unicode

EBCDIC

EBCDIC代表扩展二进制编码十进制交换码。IBM在20世纪60年代初期开发了EBCDIC,并将其用于其大型机系统,如System/360及其后续系统。为了满足商业和数据处理的需求,它支持字母、数字、标点符号和特殊符号。字符代码将EBCDIC与其他字符编码方法(如ASCII)区分开来。以EBCDIC或ASCII编码的数据可能与计算机不兼容;为了使它们兼容,我们需要进行系统兼容性转换。EBCDIC将每个字符编码为一个8位二进制代码,并定义256个符号。下表显示了不同的字符及其EBCDIC代码。

EBCDIC

ASCII

ASCII代表美国信息交换标准代码。它是一个8位代码,指定字符值从0到127。ASCII是数字字符编码的标准,它为表示字符分配数值,例如字母、数字、感叹号和计算机和通信设备中使用的控制字符,这些字符使用数据。

ASCII最初定义了128个字符,用7位编码,允许有2^7(128)个潜在字符。ASCII标准指定了英文字母(大写和小写)、数字0到9、标点符号以及用于格式化和控制任务(如换行、回车和制表符)的控制字符。

ASCII表格列
ASCII代码 十进制值 字符
0000 0000 0 空提示
0000 0001 1 标题开始
0000 0010 2 文本开始
0000 0011 3 文本结束
0000 0100 4 传输结束
0000 0101 5 询问
0000 0110 6 确认
0000 0111 7 可听铃
0000 1000 8 退格
0000 1001 9 水平制表符
0000 1010 10 换行符

扩展ASCII

扩展的美国信息交换标准代码是一个8位代码,指定字符值从128到255。扩展ASCII包含不同的字符编码标准ASCII字符集,由128个用7位编码的字符组成,一些额外的字符使用字节的全部8位;总共有256个潜在字符。

存在不同的扩展ASCII,每个都引入了超出传统ASCII集的更多字符。这些附加字符可能包含特定语言或位置的符号、字母和特殊字符。

扩展ASCII表格列

Extended ASCII

Unicode

它是一种全球通用的字符标准,使用4到32位来表示字母、数字和符号。Unicode是一种标准字符编码,专门设计用于提供一种一致的方式来表示世界上几乎所有书写系统中的文本。每个字符都被分配一个唯一的数字代码、程序或语言。Unicode提供了各种各样的字符,包括字母、表意文字、符号和表情符号。

Unicode表格列

Unicode
广告
© . All rights reserved.