按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
总之,分类的出发点是一份研究对象的清单(例如我们已知的个体生物的集合,或者个体组成的群体的集合),根据这些对象,我们列一份特性清单,这些特性或许是一些测量数据,也可能是一些已知的概率法则的参数。
很显然,根据认识的状况,根据我们的研究能力,以及我们生来就对各种标准感兴趣的特点,这些特性清单可以有很多变化。
第三章 分类的圈套对象间“距离”的随机选择
当我们用唯一的标准描述“对象”的特性时,很容易就能将同类对象汇聚在一起:按照身高或者按照体重来分类都不成问题。然而,一旦同时考虑两个或多个标准,比如,同时根据体重和身高来分类,一切就都起了变化。不过,为了尽量忠实地描述研究对象,我们显然必须尽可能多地考虑各种标准。
对象i和j是两个个体或群体,比较这两个对象就是比较两个数字序列集合:
Xi〓{X1i; X2i; 。。。 ; Xni},Xj〓{X1j;X2j; 。。。;Xnj}
其中,X1i是对象i的性状 1的测定值。于是我们发现自己的头脑连单单回答下面的基本问题都不行:“对象i更像对象j,还是更像对象k呢?”也可以换一种问法:“i与j,还是与k更相近呢?”
引入“相近”一词促使我们谈到“距离”。任何分类最终都是在确定一个距离,在设想一个空间,在这个空间中,我们所研究的对象以点的形式出现,性质相近的对象与距离相近的点保持一致。这个空间对于数学家来说只是一个多维空间,一个由与我们的研究对象的特性的数量相等的坐标轴所建立的多维空间。我们要确立一个距离,也就是说,根据集合Xi和Xj的元素,采用一种计算方法,得出一个数dij,即i与j之间的距离。
缺乏想像力的数学家们发明了许多计算距离dij的方法,这些方法全都经过论证,但是有时候却得出极为不同的结论。
最著名的方法就是经典的“欧几里得欧几里得(Euclid,生活于约公元前300年),古希腊数学家,以其所著的《几何原本》闻名于世。——译注
距离”,即它的平方等于测定值i和j的间距的平方之和;这就是我们上学时运用著名的毕达哥拉斯定理时所使用的距离。
有时“曼哈顿距离”在曼哈顿(Manhattan),从A地点到达B地点没有直线道路,必须绕道经过C地点;ABC三点构成了一个直角三角形,AB是斜边,AC和CB是直角边,用AC和CB可以表达AB的长度。因此,所谓的“曼哈顿距离”是指在不考虑障碍的条件下,两个地点之间的最短距离。——译注
也十分有用,其中,dij就是这些间距偏差的绝对值之和(这正好与纽约城的两点间距离相符:两条绿阴大道的间距再加上两条街道的间距)。
比较复杂的是“马哈拉诺比斯距离”由印度著名统计学家马哈拉诺比斯提出的马哈拉诺比斯(Mahalanobis)距离,又叫“马氏距离”,表示数据的协方差距离。——译注,它考虑到各种特性之间的联系(一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)。这种计算方法确立于1936年,需要进行测定值之间的方差——协方差的矩阵反演。因此,一直到研究人员们开始使用运算速度快的计算机时,才得以迅速普及。
最受群体遗传学家们赏识的是“余弦距离”(i和j之间的距离就是一个角,这个角的余弦等于各种等位基因的频率的平方根的乘积之和),它为按照基因型进行的群体比较提供了很多方便。
与这些“距离”计算方法并驾齐驱的就是起类似作用但又有不同优缺点的相似系数或不相似系数(卡尔·珀森卡尔·珀森(Karl Pearson,1857~1936),英国统计学家。——译注的著名的人种相似系数就属此类)得到了确定。
列举这些事实只有一个目的,就是为了证明确定距离的定义不是一件普通事。根据所使用的不同公式来计算对象间的距离,同样的数据可能会在某些极端情况下导致“相似性”或完全对立的“不同性”。老实说,在不正常的情况下,这种危险性看起来理论大于现实:使用不同的方法常常得出相近的结论。
选择这样或那样的距离经常受研究者研究习惯或者计算程序的支配,后者比对各个优势的理论分析更臻完善。为了使某些争论更加相对化,记得这一点是有益的。
大多数计算距离的方法在一开始就需要回答一个新问题:应该保持相关的各种不同性状间的平衡吗?怎么做?因为在总体距离的计算中,或者是由于它们的度量更精确,或者是因为它们的离散差更小,也或者它们与预计的更重要的特性相符,某些标准似乎应该比其他标准的影响更大。关于这个问题的争论没完没了。我们似乎无法客观地确定一个性状的“重要性”(请参看索卡尔和斯尼思以索卡尔(Sokal)和斯尼思(Sneath)为代表的数量分类学(又称表型系统学)是当今三大分类学派之一。——译注的作品),以至于许多专家认为宁可让各种参数具有同等的分量,无论它们是什么参数。
这次的问题不是什么刻板的问题;按照所采用的统计学加权,爱斯基摩人可能会比尼洛特人更接近俾格米人(根据身高),或者比俾格米人更接近尼洛特人(根据肤色)。
同理,对比不同群体时,我们也同样可以更注重稀有基因的差异,或者相反地,更关注那些频率中等的基因,或那些很普通的基因,等等;其结果也会随之受到明显影响,正如卡林卡林·凯奈特(R。 Kenett)和鲍馁…塔密尔(B。 Bonné_Tamir)合著,《犹太人群体的生物化学基因信息分析》,《美国人类遗传学学报》; 1979年,341~365页。最近所做的各种不同犹太群体的比较研究所显示的那样。
因此,对于任何分类而言,不仅应该详细说明它的分类标准,而且也应该详细阐述其中每个标准的相对重要性以及使用何种方法。
第三章 分类的圈套类别定义方法的随机选择
由于研究对象即个体或群体的集合存在于某个带有一定距离的空间里,因此需要把它们集中到性质相同或不同的子集中。由此出现了两个缓慢的进程:一个是不断分化的“递减”过程,另一个是逐渐聚合的“递增”过程。
我们的思想的本能活动常常属于递减过程,我们先前提及的动物界就是这样。面对一个由许多对象组成的集合,我们按照一个标准建立了分类群,把具有形态 X的对象放在一边,把具有形态Y的对象放到另一边(例如,白人和黑人)。然后我们按照另一个标准来分析每个分类群,我们可以根据下面的简图画出一棵逐渐分叉的分类“树”:
研究过所有的标准之后,这个进程就终止了。在这个过程中,每个阶段的分类都是所谓的“一元”式分类。因为,从一开始所考虑的特性来看,每个分类都是相同的。结果显然取决于对各种不同标准的研究秩序。不同的秩序可能会产生性质全然不同的类别。因而这些类别是在标准的秩序中先天认可的等级的结果,而远非事物的自然反应。为了减少这种随机性,分类学家威廉姆斯(Williams)和朗贝尔(Lambert)主张优先考虑那些与其他性状集合有关并且计算简单容易掌握的性状秩序,而这又是一种随意性的态度。
从理论上看,通过一种总体距离来考虑每个阶段的性状的集合,可以无须创建一元式类别直接进行“递减”分析:选择要分类的n个对象的分布距离,其中n1个对象属于一个类别,那些n…n1 个对象属于另一类别,使n1个对象间的距离n1(n…n1)之和为最大值。
但是为了选择这样的分类,就应当计算所有可能的这种分类的距离之和。而这些分类的数目为2n…1…1,也就是说,如果n=50,其数目大约有100万亿。而这种运算必须还深入到分类树的各个分支的各个阶段,即使运算速度最快的计算机也无法在这样的条件下完成对数十个对象的分类。因此,当我们想像一下只能够凭直观来进行这样的分类时,我们实在太失望了。
所