代号编码(dummy coding)是简单的编码方法,代表不同类目(category)的一组符号叫“码子”(code)。对不同类目分配码子叫“编码”(coding)。例如符号A、B、C可以分配到三种不同的处理或三组不同的被试,符号1、0可以分配到控制组和实验组或男性组和女性组,从而使这些符号只有某种实际意义;对类别变量进行回归分析,首先要对类别变量的各类目进行编码。代号编码的方法是对给定的类目的成员分配以数字1,非该类目的成员分配以数字0,从而产生若干向量;然后进行回归分析1。
基本介绍代号编码(dummy coding)是一种简单的编码方法。代表不同类目的一组符号称为“码子”(code)。对不同类目分配码子称为“编码”(coding)。在类别变量的回归分析中,首先要对类别变量的各类目进行编码,然后再进行回归分析。代号编码的方法是对给定的类目的成员分配以数字1,非该类目的成员分配以数字0,从而产生若干向量。
例如,有三组被试在三种不同训练方法下的得分如下表1所示。我们将因变量的量数合成表2中的列向量y,然后使用代号编码方法得到列向量
与
。一般来说,类目数为k,则产生k-1个列向量。根据表2的编码结果,就可求得y对
与
的回归方程
。经F检验知,此方程具有统计上的显著性意义2。
三种训练方法的得分,如表:
| A1 | A2 | A3 |
| 4 | 7 | 1 |
| 5 | 8 | 2 |
| 6 | 9 | 3 |
| 7 | 10 | 4 |
| 8 | 11 | 5 |
三组数据的代号编码,如表:
| 组 | Y | X1 | X2 |
| A1 | 4 | 1 | 0 |
| 5 | 1 | 0 | |
| 6 | 1 | 0 | |
| 7 | 1 | 0 | |
| 8 | 1 | 0 | |
| A2 | 7 | 0 | 1 |
| 8 | 0 | 1 | |
| 9 | 0 | 1 | |
| 10 | 0 | 1 | |
| 11 | 0 | 1 | |
| A3 | 1 | 0 | 0 |
| 2 | 0 | 0 | |
| 3 | 0 | 0 | |
| 4 | 0 | 0 | |
| 5 | 0 | 0 |
在计算机软件系统的运作中,代号编码设计是一件非常重要的工作。通常在进行系统的输入设计时,代号编码的设计工作必须同时进行。一个好的编码系统,它具有输入者容易记忆、节省输入数据的时间、易于调试检查等优点。当然如果编码方式设计得不好,那反而会成为数据管理上的一个重大缺陷。
代号编码的种类很多,各有其编号的规则。根据一般常用的编码方法,可以归纳为下列几种3:
1.顺序编码(sequence code)
顺序编码就是一般所说的流水号。流水号是最常用的方法,但通常不独立使用。它的编码方法基于事物发生的时间先后顺序,按照时间顺序的先后给予连续性的序号。
这种编码方式简单,但是号码本身除了含有发生的先后顺序以外,并没有太大的意义,而且也不容易记忆,这是其主要缺点。像银行对等候处理的交易文件,大部分都赋予一个连续性的编号,以决定此交易文件处理的先后顺序。
2.区段编码(block code)
区段编码的编码方法,是将编号对象实现按某些设定的归类条件分段,并在各分段间保留数个可用的号码,以利于该段内其他流水号码的插入。
这种编码方式的优点是可以从编码中了解该号码是属于哪一部门的。邮政编码的编码方式就类似于此,另外有些学校的分机号码也利用这种编码原理,如表3所示。
| 分 类 | 分机号码 | 分机号码意义 |
| 7600 | 7601 | 工管系序号一号电话 |
| 7602 | 工管系序号二号电话 | |
| 7700 | 7701 | 企管系序号一号电话 |
| 7702 | 企管系序号二号电话 |
3. 分类编码(group classification code)
分类编码是将数据按其特性和种类分成几大类,而每一大类可能会再细分成几小类,然后再按对象的先后顺序编上流水号来识别。
这种编码的优点是能够很明显地区别对象的内容,归类方便,而且容易识别,只是如果分类太细可能会造成位数过多。身份证号码的编号方式、学生学号的编号方式都属于这一类。例如,某大学学生学号的编码方式是取九位数编码,其中第一位代表学位别,第二至五位表示毕业的学年度,第六位代表系别,而第七至九位代表学生在该系当年度入学的流水号,如图1所示。


4.助记编码(mnemonic code)
助记编码的方法,是取对象数据某一部分的名称、规格或种类作为编码的组件,再将各组件予以组合成为对象的编码。
这和编码方式的优点是规则简单、易记且容易编码。例如,只读存储器(read-only memory)缩写为ROM,随机存取内存(random-access memory)缩写为RAM,各校的英文代码也是取其英文全名的头一个英文字母所组成,中华人民共和国(People's Republic of China)的英文缩写是PRC等。
5.矩阵编码(matrix code)
矩阵编码的方法,是将对象先按其类别特性的不同予以分类,然后在各大分类下再按其相同的小分类分别给予相同的编号。这种编码方式的优点是易于编码、易于记忆3。
本词条内容贡献者为:
刘军 - 副研究员 - 中国科学院工程热物理研究所代号编码
图文简介
代号编码(dummy coding)是简单的编码方法,代表不同类目(category)的一组符号叫“码子”(code)。对不同类目分配码子叫“编码”(coding)。例如符号A、B、C可以分配到三种不同的处理或三组不同的被试,符号1、0可以分配到控制组和实验组或男性组和女性组,从而使这些符号只有某种实际意义;对类别变量进行回归分析,首先要对类别变量的各类目进行编码。代号编码的方法是对给定的类目的成员分配以数字1,非该类目的成员分配以数字0,从而产生若干向量;然后进行回归分析。
- 来源: 科普中国科学百科
- 上传时间:2018-06-19
科普中国公众号
科普中国微博

帮助