心理测量者多少集值多少为精神分裂症?

点击联系发帖人 时间：2016-03-25 03:58

心理测量者迅雷下载

心理测量28(儿童社会期望/量表评价修订)
7．儿童社会期望量表
Children’S Social Desirability
Scale(CSD)
(Cradall&Katkovsky。1965)
仿照MCSD，CSD用于评定儿童的认可需要，后来，概念的解释更改为对不认可的惧怕。
量表由48个陈述句组成，以是一否的形式作答，其中有26个条目答“是”得分。本表大多数条目的内容与MCSD一致，另外一些条目涉及儿童特有的内容(如：“有时我想做一些父母认为我这个年龄还不能做的事情”)，还有些条目是用儿童的语言措词的(如：“有时我想尽情的玩，不用去上学”)。可能的得分范围是。一48，高分表明对不认可的惧怕。
在对956名中小学学生的测试中，Cradall发现，得分从3年级的29．3(Sd=10．4)到12年级的l2．7(Sd=7．6)，随年龄增长，得分逐渐递减。
信度和效度
所报告的劈半相关从0．82到O．95。一个月间隔的重测相关为0．85一0.90，3年重测相关
在男性为0．43，女性为0．19。
CSD与MCSD和“良好印象量表(CPI)”的相关分别为0．78和O．81。得分高者做事谨慎，但自信较低。在观察研究中，得高分者较少攻击性和参与性，回避一些活动，有人在场时吃糖果较少。
应用与评价
从个体发展看，有的资料提示SDR与母亲的敌意、批评、限制、惩罚以及缺乏鼓励有关，此外，婴儿期的非依从性和支配性倾向也与成年期的SDR相关。
SDR在发育过程中的稳定性也是一个关健问题。1个月间隔的重测相关很高，但3年间隔的重测相关很低。Cradall认为这是发育过程中不稳定的表现。
这个问卷列出了大多数儿童都会经历的一些情况，请认真阅读。读完一句话后，看看是否
适合你。如果适合你，就在句子后面的“是”上划“√”，如果不适合，在“否”上划“√”。
1．我在聚会中总能开心。是否
*2．我有时说一点谎话。
3．我从不因为要放下手头的事去上学或开始吃饭而生气。
*4．有时候，我不喜欢把自己的东西分给朋友。
5．我对别人总是很尊重：
6．我绝不会打比我弱小的孩子。
*7．我有时不喜欢做老师让我做的事情。
8．我从来不对父母顶嘴。
9．我犯了错误时，总是承认自己错了。
*10．我觉得父母并不是每件事都判断得对。
11．我从没想过要对别人说不友好的话。
12．我总是按时完成所有家庭作业。
*13．有时我想摔东西或砸东西。
14．我从来没有让别人因为我的过错挨骂受批评。
*15．有时我说的一些话，只是为了给朋友们留一个好印象。
16．我总是小心地保持衣服的干净和房间的整洁。
17．我生气时从不大喊大叫。
*18．即使没有生病，有时我也喜欢呆在家里不去上学。
*19．有时我真希望父母别事事管得那么死。
20．我总帮助需要帮助的人。
*21．我有时跟妈妈吵着要做她不想让我做的事。
22．我从没说过什么让别人觉得不好的话。
23．老师对什么都比我懂得多。
24．我总是很有礼貌，对不太好的人也不例外。
*25．我有时做一些不准我做的事情。
26．我从不生气。
*27．有时我要某一件东西，仅仅是因为别人有了这样东西。
28．我总是听父母的话。
29．我从来不忘记说“请”、“谢谢”。
*30．我有时真希望光是尽情的玩，不用去上学。
31。我每次吃饭以前都洗手。
*32．有时我知道父母需要我帮忙做家务，我也不帮他们。
33．我从来没觉得交朋友有困难。
34．我从没做过破坏纪律或违反法律的事。
*35．别人做了对我不利的事情时，我有时想跟他们算账。
*36．我有时因为得不到我想要的东西而生气。
37．我总是帮助受伤的小动物。
*38．有时我想做一些父母认为我这个年纪还不能做的事情。
*39．我有时觉得取笑别人挺有意思。
40．我从来没有不经过允许就借用别人的东西。
*41．当别人干扰了我正在做的事，我有时感到厌烦。
42．我总是乐于与别人合作。
43．当我最好的朋友想做我不想做的事情，我从不感到厌烦。
*44．我有时希望别的孩子对我说的话更注意。
45．我总是做恰当的事情。
*46．我有时不愿意服从父母。
*47．当别人要我替他做事时，我有时不情愿。
*48。当别人不按我的愿望做事时，有时我会特别生气。
注：*为反向计分项，答“否”计1分。
第二节趋同应答
概念与分类
趋同应答(acquiescence)是对所有问题都趋向同意的倾向，大多数研究结果都表明；趋同是一种应答风格。有一类人(英文叫yeasayers，唯唯诺诺者)倾向于同意每个陈述的内容，或对问题总回答“是”；另一类人则倾向于不同意量表条目的陈述，或对问题总回答“否”。这种回答不同于对所有问题都机械性地回答，出现这种回答的原因被认为是受试对问题感到不确定。趋同应答本身被视作一种个体差异的变量，一种与顺从和冲动性有关的人格特质。
当一种自评工具在测量构想内容的同时也测量趋同应答时，就会出现一个问题，例如，许多焦虑量表都要求受试就有关焦虑的症状回答“是”或“否”。那么，对所有问题都答“是”的受试，可能是一位非常焦虑的人，但也可能仅仅因为他习惯于对一切问题都说“是”。有些研究者指出，趋同应答严重干扰各种自陈测评，包括态度、能力、成就、人格、病理心理等各个领域的测量。进而，还发现趋同应答与种族、受教育程度等社会地位的变量有相互作用。不过，也有一些研究认为，趋同应答的影响并不明显。
对这些相互冲突的资料加以考查后，Bentler等人区分出两类不同的趋同回答：赞成趋同(agreement
acquiescenee)和认可趋同(acceptance
acquiescence)。赞成趋同是倾向于同意所有条目，不管条目是肯定叙述还是否定叙述(如：既同意“我很快乐”也同意“我不快乐”)。认可趋同则是认可自己具有所有的属性(即使有些属性明显对立)。当受试同意自己“快乐”和“忧伤”，而不同意“不快乐”、“不忧伤”的陈述时，则表现为这类认可趋同。Bentler认为赞成趋同的影响不足为道，但认可趋同仍是个有待解决的问题。Block对此持怀疑态度。
比较一致的是，普遍认为趋同应答给态度和意见调查带来的问题较之在人格评估的问题更多。在调查研究中，对某一条目同意的百分比较之在人格评估中更为重要。而且，在许多人格评估中，条目是关于某种特质的形容词，使趋同回答的控制较为简单。但关于这一点也有不同的看法。
控制与测量
虽然对趋同回答的普遍性意见不一，现在大多数量表编制者在计分时都加以平衡处理。通常的办法是，一半条目正向计分(高分表示具有所评定的属性)，一半条目反向计分(低分表示具有某种属性。以是一否这一两分法计分方式为例，一半条目答“是”得l分，另一半答“否”得1分。
这一简单的措施可控制经典的趋同回答(赞成趋同)，因为受试只有同意若干条目并同时不同意若干条目才能得到高分。换言之，受试不可能一味地答“是”或“否”就得到高分。对不均衡量表加以校正更为因难一些。如果正向评分的总分与反向评分的总分相关很高，而它们与另外一个变量也有可观的相关，那么，可根据其不同的权重产生一个总分，部分相关的技术也已用于从统计上消除趋同回答的影响。
然而，根据Bentler的看法，需要特别加以的控制的是认可趋同。简单地对每一条目添加一个否定条目(如：不快乐)并不够，必须增加相反的概念和属性用肯定方式措词。例如，在评定“支配性”这一人格特质时，必须包括概念上相反的特质“顺从性”。在一些调查中，相互对立的概念不一定能够确定，应首先进行初步研究，找到与原词匹配的用语。不过，已知的人格评定，仅有一个对两种趋同都加以了控制，这就是多维度社会期望性调查表。而且，这一工具也仅仅评定了人格的一个侧面。
总之，趋同回答方面的研究不少，但问题也不少，而且没有一个广泛应用的测评工具，因而本节未附有关量表。
第三节极端应答偏差
极端应答偏差(Extremity Response
Bias，ERB)是指在评定量表中总是选用极端评分的倾向(如在7分制量表中选l或7)。一些情境性因素，如意义模棱两可、情绪唤起、时间紧迫等，会引起ERB暂时增加。但个体若在不同时间及各种环境下均表现出ERB，则被称为具有极端性回答风格。Peabody等人(1962)早就提出ERB是一种恒定的个体差异，新近的研究也支持这一观点。Bachman等发现，态度调查中的ERB相对稳定，不随时间而改变。同时还发现ERB具有种族的差异。但是，还几乎没有证据表明ERB与任何传统的人格维度有关联。
并非所有的极端回答都属于ERB，它可以是一种极端性意见的反映。最有说服力的证据是，极端性回答预示着极端的行为(Schuman等，l981)。不应该与ERB混淆的还有所谓偏常回答风格。这是一种竭力作出与众不同回答的倾向。Ber9将这种风格与许多行为联系在一起，并收集了一些有关的证据，但并未得到普遍认同。
ERB带来的问题是无从将某个受试的分数与其他人直接比较：不能区分极端评分究竟是代表一种强烈的意见还是反映选用极端性回答的倾向。第二个问题是，ERB使一些本来不相关的内容出现虚假的相关。此外，ERB还与性别、种族、受教育程度等社会地位的变量有相互作用。
控制与测量
在某些情况下，可通过多选的方式控制ERB。ERB不能通过简单地对计分加以平衡来校正，因为极端回答可取任何一个方向。减少回答时供选择的数目确实能消除这一问题，但同时也降低了工具的敏感性。尚没有理想的测量工具。
附录一：西方量表译本的评价和修订*
将西方的心理量表译本匆促地用于中国的临床和科研是不适当的。对一个稳定、有效的西疗量表进行准确无误的翻译并不必然保证它在中国也是稳定和有效的量表。在心理学和精神病学的跨文化研究中，经常将西方量表翻译后就在中国使用，包括生物心理测量或／和社会心理测量的定式检查量表和自我评定量表，其中很多量表既而被应用于临床。但是，这样使用量表译本的研究，其结果往往并不可靠，原因在于在中国国内并没有对量表译本进行充分的信、效度检验。
为了减少量表的人种和文化偏性，提高它们在中国的临床使用价值，迫切需要用严格的科学方法对量表译本进行评价和修订。本文介绍笔者等在中国使用量表译本过程中所探索出的评价和修订量表译本的方法。
第一步：了解、审定西方量表的发展、评价和使用情况
西方国家使用过的量表巾有很多质量不高，将这样的量表翻译后引进中国只会扩大其不适应性。在中国使用一个西方量表之前，首先要完全熟悉这一量表在西方的发展和应用情况，尽可能地查阅有关的所有文献．以便正确评价这一工具的质量，然后再决定有无必要进行大量的工作将此量表引进并使之适用于中国。
量表必须基于可靠的科学理论。如果编制某一量表的理论本身就不清楚或具有高度的文化偏性，那么此量表多半不适合于在中国使用。除此之外．还必须考虑量表编制的全过程，如：编制量表时的原始条目池(item
p001)是否全面?确定量表条目时．选择条目的方法是否适当?用来建立常模的样本是否具有代表性?对量表的信、效度是否进行了严格的心理测量分析?如果有关文献没有满意地回答上述问题，那么，此量表还不能用于不同的文化背景。
Kirshner和Guyatt[1]写了一篇很好的文章(尚未发表)，强调区别三大类量表的重要性。(1)差别量表：旨在按照不同基本维度来区别不同的个体(如智力测验、人格测验)；(2)预测量表：用来预测个体属于已定类别中某一类的量表(诊断试验、预测自杀行为的量表)；(3)评定量表：用来评定某现象纵向变化程度的量表(如评定治疗反应)。由于其心理测量指标要求各有不同，一个量表不可能同时兼备上述三种量表的测定功能。因此，在选用某一西方量表前，应考虑此量表在西方的用途：即用于三种目的中的哪一种，并适用于什么人群?如果在中国使用的目的或计划中的病人对象与西方不同，最好还是选用别的量表或编制新的量表。
第二步：量表的翻译和回译
一经确定一个量表在西方确实行之有效，而且目的与对象和中国的研究相似，下一步就是翻译这个量表。如果研究的主要目的是比较西方国家和中国的同类病人，那么应力求量表译本与原版之间意思相同，这一要求可通过对量表的翻译和回译来达到(注释l)。如果研究的主要目的是提供一个能在中国临床使用的量表，那么翻译时用词就应力求按照中文的习惯用法，与原文难免有所出入。这样一来，在西方研究结果与中国使用的效度之间，就会出现矛盾。将西方量表进行修订使之适合中国文化的特殊性，可以提高量表在中国使用的效度，但其代价是与西方研究结果的可比性降低。完全不受文化制约的量表是不存在的。
在量表被准确无误地翻译后，应该从以下几方面评价量表条目的“表面效度”。如：译本中的特定条目是否与准备测定的概念相关?译文意思是否清楚明确?如果是自评量表，译文的难易水平对填表对象是否适合?条目能否区别不同个体或回答会众口一词?如果翻译后的条目不符合上述标准，在对量表进行初试之前，应对条目进行适当修改。在不改变基本概念的前提下，使条目含义变得清楚、简单和适合文化要求，以便能起到区别不同个体的作用。
第三步：对量表进行初试和必要的修订
在进行正式研究之前，有必要先行初试并根据初试结果对量表加以修改。初试有助于发现哪些条目含义不清楚、不明确、太复杂或不具区别能力。在正式研究之前就应对这些不理想的条目加以修改。初试人数以20～30人为宜．其受教育程度和临床状况应与将来量表的应用对象相同。应观察受试者在填写量表(或回答定式询问)过程中如何反应，并要求他们解释各条目的含义。如受试者选择某个条目感到犹豫，应该问清犹豫的原因。确定自评量表中不清楚的条目，可行的方法是：在填完每一条目后，要求受试者完成以下步骤：(1)采用三分制来判断受试者对条目理解的难易程度(容易理解、中等、难于理解)；(2)要受试者标记出条目中看不懂的词句；(3)如果几乎所有的受试者对某一条目回答的结果都一样，这个条目就肯定应该修改，因为不具备区别能力。
西方量表的一种常见情况是在量表中设有肯定和否定问句两种形式的条目，目的在于避免受试者以干篇一律的方式作答，而不仔细思考每一个问题。在中国，对否定问句的否定意味着肯定这种语言表达方式不象英语那样常用，受试者经常误解和错答这些否定问句条目。因此，在翻译量表时，最好将否定句的条目改成肯定问句(尽管有可能引起回答方式干篇一律的弊病)。
初试的另一个重要作用是评价量表的格式，对自评量表尤其重要。评价的内容包括：指导语是否清楚?在指导语中要不要举例说明?条目的回答方法是否清楚?条目是否易引起误解?是否有使受试者容易疏忽而漏填的条目?西方量表使用的格式在中国并不一定是最适当的格式，有时需要更详细的指导语和更简单明确的评定方法。为厂确保不出现漏填．有的量表甚至需要改变整个格式(注释2)。
第四步：进行正式研究以评价量表的应用价值
完成初试并作适当修改后，便可进行正式研究以确定量表在中国是否具有实用价值。此时，至关重要的是应该对量表的真正用途有明确的概念：是用于判别、预测还是评定?因为研究的设计、对量表性能的评价和修订在很大程度上取决于量表的不同目的。一个特定的量表可以有几种用途。但一次研究只能检验一种用途。
判别量表：
判别量表的功用是描述一种基本状态或情况，并根据受试者的情况对不同受试者加以区别。因为没有可检验此类性能的外部标准和金标准f例如：人格、智力、家庭功能)，所以量表的使用价值主要取决于量表的结构效度和信度。
检验判别量表结构效度的方法之一，是看它能否对鼹组不同的人群作出判别，并且与其理论基础保持一致。例如。家庭功能量表应能区别违法少年家庭与非违法少年家庭。使新翻译的量表能被接受的最大成功机会(即最大限度地减少过早否定这一量表的可能性)，是用此量表去测定适合基本理论的尽可能多的不同人群，样本要够大，以避免Ⅱ类误差(指事实上组间确有显著差异，但经统计学处理却未能发现)。确定样琴大小的方法在统计学教科书中有详细介绍[2]。如果一个量表对样本够大，量表打算测定的特征明显不同的两组人群不能作出判别，那么，此量表没有使用价值，应予放弃。反之则说明此量表具备差别能力。
评价判别量表结构效度的方法之二，是与和量表理论有关的外部测量进行比较。如果两者的结果一致，就证实量表的结构效度。例如：一个评价整体健康的量表。在理论上应与过去一年中的患病天数有关，如果真正如此．亦支持量表的结构效度。与量表相关的外部测量越多，量表的结构效度就越好(释3)。
一个合适的判别量表不仅应能判别不同的个体，而且在不同时间内应能作同样的判别，也就是说应具有稳定性。这方面的指标是测定重测信度的相关系数(依数据类型选用直线即Pearson相关或等级即Spearman相关)。重测的样本同样应能代表总体。重测的人数越多越好，一般来说。至少应有30人。重测间隔时间根据不同的量表而异，多数可间隔2至4周，有些量表应间隔一年或更久。如果是检查者使用的定式检查量表，还应评价评定者之间的信度，通常采用Kappa值作为指标[3]。
预测量表：
预测量表的功用是在已有外部标准或金标准的前提下，将受试者归入不同的类别。常用的预测量表如诊断量表和预测治疗反应、疾病复发、自杀危险性的量去。预测量表应该具备一些金标准所不具备的优点，如快速、花费少、危险性小、能早期使用等特点，否则就没有实用价值。预测量表与差别量表不同，其结构效度和内部一致性相对并不重要。量表的使用价值取决于信度和“校标效度”(criterion
validity)，即归类的准确性。
如果量表的目的是预测混合人群中成员的现行类别(不论每个病人有无特定的诊断)．就应该评价量表的“平行效度”(concurrent
validity)——校标效度的一种。具体方法是：用量表测定一个样本。样本成员的目标事件发生率应与量表实际应用时的人群相同，并由不知道量表结果的研究者盲性使用金标准评定同一样本。量表结果与金标准之间的符合率通常用Kappa值或组间相关系数(ICC)评定。
如果量表的目的是预测末来事件(如自杀、疾病复发、治疗反直)，就应该评价量表的预测效度——属校标效度的另一种。具体方法是：将量表用于一个对量表实际应用人群具有代表性的样本，并追踪随访一段适当的时间，以观察被预测的事件是否发生。评价其准确能力通常也用Kal,pa和ICC值。
如果量表结果与金标准之间的一致性显著高于机遇巧合，则表明量表具有满意的校标效度。但是，如果所用的样本很大，则Kappa值很小也会有统计学显著性差异。因此，慎重考虑Kappa值的大小和显著性水平是十分重要的。对Kappa值大小的要求意见不一，Fliess“1提出：Kappa值大于0．75说明平行效度很好，远远超过机遇巧合，在0．40和0．75之间说明平行效度较好，小于0．40说明平行效度差。在设计评价预测量表的研究时，应该考虑以上因素：所预测的事件越少见，则越需要较大的样本，才能肯定是量表的预测能力超过机遇巧合。预测罕见事件(如一般人群中的自杀行为)，样本数目一般达不到这种要求，解决的方法之一是将较多发生此类事件的人群作为样本(如将重症抑郁病人作为研究预测自杀的样本)，但这样一来研究结果的代表性只限于取样人数。
一个经常发生的错误是采用临床样本来检验预测量表，并把只对临床样本具有高度敏感性和特异性的量表用作普通人群的筛选工具。然而．预测量表的临床使用价值主要取决于它的阳性预测值和阴性预测值(即指阳性或阴性测验结果是正确的可能性有多大)，而不是取决于它的敏感性和特异性。这些预测值易受患病率的影响，例如当结局事件的发生率减少时．量表的阳性预测值明显下降。因此，一个用之于病人群预测结果好的量表并不一定在结局事件发生率很低的人群中有同样好的预测效果(注释4)。
预测量表的稳定性也是很重要的，不能因时间不同而将同一对象归入不同的类型。有价值的预测量表，其结果应该有显著而稳定的个体间差异，但不会随时问改变而出现系统性的变化,可用重测信度来评价量表的稳定性是否因时而异，但与判别量表重测信度的评价指标不同，应采用校正机率统计(如Kappa值)而不能用直线相关或等级相关。量表重测的预计间隔时间因量表不同而异，如：有些诊断在几周或几月后有可能更改，这类量表的重测间隔时间应短。疾病复发或自杀的预测通常以年计．因而这类量表的重测间隔时间应适当延长。如果是评定者使用的定式问卷，则应该用Kappa或ICC评价评定者之间的信度。
评定量表：
评定量表的目的是测量某现象在不同时间内的变化程度。最常见的是设计成定量指标来评定在特定治疗下临床现象变化程度的量表。如汉密顿抑郁评定量表(HDRS)常用来评定抗抑郁药的疗效。评定量表的好坏取决于量表本身的纵向结构效度、信度和敏感性。
在结构效度的评价方面，评定量表与判别量表不同。判别量表的结构效度通过同一时点的量表分与外部测量分之间的相关性来评价(也称为横断面结构效度)。而评定量表的结构效度则通过不同时点的量表分的变化与外部测量分的变化之时的相关性来评价(也称为纵向结构效度)。评价纵向结构效度应包括以下几方面：(1)采用够大的样本，在能够引起临床状况发生改变的特殊干预被使用前和使用后进行量表评定；(2)在特殊干预使用前和后，采用另一与量表理论相关的临床状况测量手段；(3)计算量表分前后之差与另一测量分前后之差两者间的直线相关或等级相关系数；(4)如果两者间有显著相关性则表明量表有较好的纵向结构效度。例如：HDRS的纵向结构效度可通过抗抑郁药治疗前后的HDRS评分的变化与大体评定量表分的变化两者的相关来评价。
在临床状况稳定不变时，评定量表的个体内部变异应该很小，而在临床状况好转或恶化时，量表的个体内部变化则应该很大。因为评定量表的目的不是区别不同的个体．因而不同个体间的差异并不重要。信度的相关系数和Kappa值不如配对测验那样有关。因此，评价评定量表的重测信度时，在重测Iq隔时问内个体的临床状况应不发生变化。对前后两次量表的评分要用配对检验方法来分析(如Wilcoxon秩和检验或配对T检验)，如果结果无显著性差异，则说明不同时间的个体内部量表分无明显变化，信度可靠。同理，如果是由评定者使用的定式检查量表，评定者间的信度也应该用配对检验来评价。
评定量表还应该具备高度的“敏感性”，即-k临床状况仅仅只有非。9／J,酗a变化时，量表也可以反映出来。如果敏感性低，只能反映出很明显的临床状况变化，那么就需要很大的样本(甚至不可能达到)才能观察到量表分变化的显著性差异。评价量表的敏感性，可使用已知疗效的治疗措施，通过比较治疗前、后量表分的变化来看敏感性如何，或通过用别的标准来证实病人的好转或恶化情况，同时观察量表分变化的方向和程度。
第五步：基于初步研究结果对量表进行修订
通过初步研究肯定了量表的信、效度后，下一步是利用研究结果对量表进行修订。目的是确定哪些条目不清楚、不稳定或不符合量表的效度。在效、信度的评价方面，三类量表有很大的差异，在如何确定不理想条目的方法方面也是如此。
多数翻译过来的量表，其条目在经西方样本研究后，已根据研究结果作过筛选削减。如果进一步减少条目数量可能使量表对所测内容的综合性评定能力降低。因此，对量表译本中不好的条目来说，需要的往往是修改或替代而不是删除。如果对一个不好的条目有几种可能的修改，难以肯定哪一种最好，可以在下一次修订量表时，将几种可能的修改都纳入研究，分析修改后量表的效、信度时，相互比较，择优选入最后版本。如果定性研究表明量表译本的所测内容中未能包括本文化的重要方面，就应该扩充条目，包括进去。
判别量表：
判别量表的条目安排原则，是要求包括被测结构所有重要方面的条目，去掉那些降低结构测量精确度的条目。确定判别量表中的：不好条目有几种方法，对下列类型的条目要考虑删除：受试者经常难以理解其含义的条目；对不同组别缺乏判别能力的条目；随时间不同而不能保持稳定的条目；与所属分量表评分相关性差的条目；分量表经因子分析(未经旋转)．在初始因子矩阵中主成分负荷值低的条目。条目筛选时，最理想的是使每一条目的外部效度、内部一致性和信度同时得到最大限度的增加，三方面都不满意的条目应该删除。常常有些条目在某一方面较好而在其他方面较差(如某条目对不同组别有很好的判别作用，但与所属分量表评分的相关性却较差)，对这样的条目是否需要修改，取决于量表的外部效度、内部一致性或信度三方面哪一方面在当时处于重要地位。对条目的修改应根据条目的主要问题而定：含义不清楚的条目应改写清楚；对组间判别能力差的条目重在增加其判别能力；与所属分量表评分相关性差的条目应改进这方面的相关；不稳定的条目应重新拟写，使其描述的现象更加稳定和具体。
预测量表：．
预测量表的条目安排原则，是对目前或将来的一组人群进行正确和稳定的预测。如果量表内同时包括几种范畴的内容(如诊断量表中含有几种诊断类别)，那么，一个特定条目就应该能准确和稳定地预测该条目所代表的类别。因此，预测量表中的条目只强调校标效度和重测信度。根据单个条目的Kappa值可确定哪些条目不符合要求。对不能正确确定受试者(按照金标准结果)的条目应该修改，以便能准确地区别符合与不符合金标准的人群。对因时而异的不稳定条目也应修改，以便使条目较好地显示出所测现象的客观性和长期稳定性。
评定量表：
评定量表的条目安排原则，是要求包含能灵敏地反映出临床干预效果变化的所有有关条目。评定量表的条目应该具备下述特点：如果临床现象没有变化，对研究对象的评定结果也应该没有变化。而在临床现象有明显的改善或恶化时，对研究对象的评定结果也应该有很大的变化。对每一条目前后评分的配对检验可确定哪些条目需要修改或取代。对给予肯定有效治疗后而评分无明显变化的条目。或者是评分有明显变化但并无相应的临床现象变化的条目都应该进行修改。评定量表的条目也应该具备敏感性，条目评分的变化应能反映出微小但很重要的临床状况变化。在条目的敏感性方面，具有等级程度(如：“从来没有”、“很少有”、“有时有”、“经常有”、“总是有”)选择的条目要优于只有两极(如：“有”、“无”)选择的条目。有时为了更好地达到评定目的，要将两极评定的量表转换成等级评定量表。
第六步：用已修订的量表测定另一组人群，对量表再次评价并建立具有文化特异性的常模
对修订后的量表，应该测定另一组研究对象，并再次评价，结果仍然不好的条目应该取代或修改。要获得一个满意的量表，往往需要多次的修订和再评价。在反复修改的过程中，所用样本对今后实用时的对象人群应具代表性。
由于文化差异，一个量表经修订后，在内容和形式方面就会有很大的变化。因此，仍用西方的常模来区分“正常”与“异常”是不适当的。修订工作一旦完成，就应该采用一个很大且有代表性的样本来建立具有文化特异性的常模，并确定效度和信度指标。
判别量表：
判别量表的常模通常来自于普通人群。在全国不同地区按照年龄、性别、文化程度等比例收集一个大的、且有代表性的样本。如果是自评量表，样本则限制于受教育水平能完成量表填写的人群。因此，常模不适合于这一受教育水平以下的人(注释5)。
有几种方法可用来确定判别量表的结果属于“异常”：(1)量表分超过“常态”人的均值加减两个标准差的人；(2)标准化“T”分高于或低于一个人为划界分的人；(3)量表分达到或超过临床患病样本均值(或其它一些特定百分位数划界分)的人。第l、2种方法最为常用，但因仅机械地从概率的观点来确定异常，不考虑临床的实际情况而存在一些不足。第3种方法从临床角度来讲更为适当，但需要建立一个大的、有代表性的临床患病人群的常模。
一旦修订量表定形后。要评价量表理论结构的独立性和同源性。常通过因素分析和内部一致性的评价来完成。内部一致性指标是衡量分量表的条目(如果量表仅仅是测量一个结构，则为整个量表的条目)与基本测定结构是否一致的准确程度。如果基本测定结构具同源性，且条目能特异性地代表此结构，量表的内部一致性就高。反之。如果基本测定结构具异源性，且条目不能特异性地代表此结构，量表的内部一致性就低。用于评价内部一致性的方法有多种，如：分量表中各条目间平均相关系数、Cronbach’s
alpha(信度系数)，theta和omega阳，等．这些方法都有赖于分量表中各条目间的平均相关程度。此外还有条目间相关矩阵，分量表的主成份分析和因素分析方法(注释6)。其中以Cronbach’S
alpha最为常用。从理论上讲，Cronbach’S alpha值应大于0．8，但对大多数研究来说，达到0．6就认为可取。
从理论上讲，对一个有代表性的大样本的量表结果进行因素分析。分析结果应具备下列特征：(1)经主成份因素分析，得到的有统计学显著意义的因子数目应与量表的理论测量维度相符；(2)经旋转后，在某一因子中负荷高的条目应与此因子的内容有关；(3)各分量表(维度)在不经旋转的普通因子分析时，得到的第一因子的方差解释值应较大(应)40％)。不符合上述特征的量表可能有几个不同的理论测定结构，或者理论结构具异源性。
采用一个与西方类似的中国样本，并与量表的西方因素分析结果进行比较，可以了解因子结构的文化差异。但是，对基于因素分析结果来解释文化差异应持慎重态度，因为不同的取样方法、方法学方面微小的人为因素均可明显影响因素分析结果。因素分析和内部一致性虽可用于评价量表的结构效度，但对结构效度进行外部测量(即与有理论相关的其他测量方法进行比较)更为重要。
预测量表：
预测量表的常模样本应来自量表实际应用的人群，制定预测量表的常模需要两个常模样本或将一个大的常模样本分为两半。第一个样本用来获得能最大限度提高预测准确性的预测公式，第二个样本用来评价这一预测公式的效度。用获得预测指标的同一样本来确定量表的指标效度是不适当的，这样会出现量表效度很高但不真实的结果。
因为量表的各条目具有不同的预测能力，因此可用第一个样本来计算逻辑斯蒂(109istic)或多元回归方程，以权衡各条目对结果的最佳预测能力。然后根据条目权衡后的回归方程重新计算量表分，可得到一个划界分能很好地把存在和不存在指标事件(金标准)的个体区分开来(注释7)。此外，也可用回归方程将每一个体的量表分(或区间)转换成似然率一一即结局事件发生的可能性(在一个有限可信区间内发生结局事件的可能性有多大)。对于有多个划界点的量表(如使用树枝状定向的诊断量表)，应该确定每一划界点的最佳划界指标。
完成上述步骤后，应将预测指标——各条目的权分和划界分用于第二个样本，用Kappa值来评价量表的校标效度(即特定的预测校标效度如何)。同一指标事件在预测指标上的跨文化差异。高度表明在预测金标准时，不同的文化因素是十分重要的。
评定量表：
因为评定量表是测定个体本身前后的差异而不是个体间的差异，所以凭量表评分不能认为正常或异常，评定量表的“常模”，是通过让一组病人接受肯定有效的标准治疗．并根据量表分变化的程度而制定的。常模样本是指对患有该特定疾患的所有病人具有代表性(如病期、病情严重程度等)的一大组病人。“常模”是指肯定有效的标准治疗引起量表分变化的均值和标准差。“常模”制定后，可用“常模”来比较其它治疗方法所引起的量表分变化情况。对量表内容和标准治疗引起的量表分变化程度进行跨文化的比较，可以确定症状对治疗反应敏感性的跨文化差异。
用于一种以上目的的量表：
量表通常可用于一种以上的日的。判别量表和预测跫表也可用于测定不同时间的临床状况变化(与评定量表类似)，反之亦然。关键是对不同类型的量表有不同的要求。因此，一个量表不可能对一种以上的目的都具备良好的测定能力。例如，判别量表要能够对不同个体进行明确的判别，但评定量表则要求能够确定个体本身微小的临床状况变化。两极回答方式最适合于判别量表，因为量表要尽可能明确地判别不同的个体。而等级选择回答方式最适合于评定量表，因为量表要尽可能反映出微小的、但非常重要的临床状况变化。
对一个量表不能兼备多种良好的测定功能这一问题．没有简单的解决方法。在使用量表译本时，这一不足更为突出，其原因是西方国家在编制量表时，对条目原已作出限制。许多研究人员或者是由于不知道这一不足，或者是由于试图编制一个能同时测定多种功能的量表，其结果是使量表缺乏精确性。笔者等认为，可行的最佳解决办法是一次针对一种目的对量表进行评价和修订。在量表被精制能够用于某种目的后，才能评价其它目的和用途。但是，要使工具能用于第二种目的，增加其实用性，通常需要做进一步的修订，以使其具备测定两种目的、即两个量表的功能。笔者认为，分别测定两种特定功能的两个精确工具比一个能测定多种功能的不精确工具要好。
使用翻译过来的量表，并不是从编制量表的第一步做起。因为编制一个量表首先要获得与测定现象有关的大的条目池，然后从提高量表测定某功能的信、效度出发，对条目进行筛选削减或修订。量表译本中的条目来源于有关研究范畴的西方概念，并通过西方样本的研究加以筛选和削减的。如果在中国编制同一研究范畴的量表，原始条目则来源于可能与本文概念不同的中国概念，并通过中国样本研究后，将筛选得到的条目编制成量表，其条目肯定会与翻译过来的量表有明显的不同。
因此，所有西方量表译本都可能存在人种偏差。一般说来，西方量表译本与中国文化之问的差异性，自湃量表和测照心理社会指标的量表比定式检查和测量心理生物指标的量表更为突出。例如：郑氏等人发现汉密顿抑郁评定量表(定式检查量表)中译本具有较好的信、效度，但Beck抑郁问卷(自评量表)中译本的信、效度则不理想。使用定式检查时，检查者可用本文化习惯用语给病人解释条目的含义．这样就减少了量表的人种偏差，而自评量表则难以做到这点。与测量心理生物指标的量表相比，测量心理社会指标的量表更有可能含有西方文化特异性的条目，因_向文化差异性更大。将来，有可能采用证明具有跨文化信、效度的定式检查量表做为“外部标准”，以便修订测量同一结构的自评量表。
从理论上讲，每一文化应该从量表编制的第一步开始，编制适用于本文化的健康状况和心理社会方面的量表。但编制一个新量表需要众多研究者长时间齐心协力的工作，中国的研究者很少具备这些条件。日前，中国需要一致的临床和社会文化测量工具的迫切愿望已导致西方量表译本的广泛应用，这些量表译本的最后应用价值将有赖于用严格的科学方法进行评价和修订。
本文提出了将量表译本用于中国的评价方法。在中国使用的量表译本(即判别、预测和评定量表)和量表应用的目标人群首先要符合中国的文化特点，然后采用对目标人群具有代表性的样本．对与量表类型有关的特定心理测量性质进行严格的评价。如果不符合本文化特点，则必须对量表进行文化方面的适当修订。随后重新评价。经过反复几次的修订和再评价．产生正式量表，然后制定正式量表的文化特异性常模并进行跨文化比较。
(本文写作过程中承郑延平医生提出很多建设性意见，谨表谢忱)
1．如果原版量表是英文的，则步骤如下：一个人将最丧翻洋成中文，另一人(尚未看过原版量表)将中译本回译成英文，并与原版量表比较。将中译本适当修改后．还。，女i进行回译并与原版量表比较，有必要如此反复，直到回译本尽可能接近原版量表。当然，量表翻泽的准确程度取决于泽者的水平。
2．初试也用于评价回答量表的难易程度。如果是自评量表，病人填写要花费多长时间(可能对复杂问题难以理解)?受教育低的人能否完成?如果是定式检查量表，检查时间多长?如果正式研究包括几个问卷和定式检查，完成所有量表需要多长时问?如果初试研究发现受试者因时问太长不愿意完成量表或不能保持注意力，研究的设计则必须修改。
3．因素分析和内部一致性测验是评价结构效度的方法，对判别量表译本尤为重要，因为对西方量表理论结构的广度通常存在疑问，在修订量表译本的最初阶段，由于样本小和量表中可能含有一些不适当要修改的条目，因子结构和内部一致性是不稳定的。此时应用这些分析方法可帮助修订量表，而不是对量表在中国的理论结构下肯定结论。只有在形成正式量表版本并用于大而有代表性的样本之后，才可以用这些方法来评价量表在中国的理论结构。
4．要考虑所用金标准的质量或因同时使用量表和金标准而使结果混淆不清的可能性是非常重要的。所谓“金标准”指的是：大家公认是用最客观的方法来决定某一一现象(如：诊断)是否存在的一套标准。在精神病学领域，因为缺乏能肯定疾病诊断的实验室手段，所以经常采用高年资医生的临床经验判断作为“金标准”。如果所用的“金标准”不清楚，一致性差或偏差大，则不能帮助正确地评价预测金标准的量表。用“临床诊断”作为评价诊断量表的金标准时，“临床诊断”必须有清楚、客观的标准。同理，用自杀行为、疾病复发、疗效和康复等结局事件作为评价预测量表的金标准时，这些结局事件必须有清楚、客观的标准。决定金标准存在或缺乏的人必须受过适当训练，并且不知道量表的评定结果(即不存在偏见)。如果金标准的评定是临床判断，使用金标准的评定者间的信度必须单独评价。
在用金标准诊断前先使用某些诊断量表可能影响病人对量表的回答，以致影响评定结果。反之，在用诊断量表前先使用金标准诊断也可能影响金标准的结果。为了减少这种混乱。研究者应该采用随机化的原则，并避免同一天内对同一病人使用两种方法诊断。但间隔时间不应太长，因为时间太长，病人的临床状况可能改变而导致两种方法的结果不一样，而实际上并不是金标准和诊断量表问的差异。
5．如果受试者中文盲较多，则不：直使用自评量表。如果确有必要使甩．可由调查耆将量表读给这些人听，这样，量表就成定式检查。但是，完成量表的方式不同，会导致对条目的不同回答，特别是含有与个人隐私有关条目的量表。因此，对两组受试的结果应分别分析，除非能证实完成量表的方式不同并不影响受试者的回答。方法是让受过教育者完成量表两次，一次是自评方式，一次是定式检查方式。两种方式的使用应按随机化原则，时间间隔应为2～4周(要保证在间隔时间内量表评价的结构不会改变)。通过配对检验(如果结果是计数资料则采用kappa)评价两种方式的结果是否有差异。如果没有显著性差异则表明将自评和定式检查结果合并分析是合理的。
6．Cronbach
alpha=N&MC／[1十Mc(N—1)]，N为分量表(维度)条目数，MC为分量表所有条目间的平均相关关系数(来自相关矩阵)。
Fheta=(N／(N—1)][1
(1／Ev1)]，N为分鞋表条目数，Ev1为丰成份分析得到的最大(即第一)特征值。
Omega=1一[(N—H)／(N
2&IC)]，N为分量表条目数，H为普通网素分析得到帕初始因子的总和，IC为条目问相关系数的总和。
7．采用预测量表的划界分来作出临床判断时，为防止误解有一点需要说明：临床判断的作出不仅要基于对结局的最佳预测，也应基于如果作出假阳性或假阴性预测时，是否会糟些。例如：最能准确预测自杀危险性的自杀危险预测量表的划界分是假阳性预测和假阴性预测可能性恰好相等的分数．但值得注意的是假阴性预测的危险性(预测病人不会自杀．但却自杀了)大于假阳性预测。因此．决定抑郁病人是否需要住院的划界分应该明显低于预测是否会自杀的最佳划界分。对用预测试验和量表来作出临床判断的复杂性进行探索，是一个新颖而快速发展的领域，称之为“决定分析”(decision
analysis)。
附录(二)：精神症状量表的局限性*
金无足赤，人无完人。凡为人所用者都有其局限性，精神症状量表当然不例外。也只有充分了解量表的局限性，才能有效地使用它。鉴于国内文献还没有这方面的论述，因抒一已之见，求教于海内方家。
一、用单个的症状代替整体临床相
诊断和评定疗效。主要要看整个病人。只着眼于症状是不够的．更不用说限于孤立的症状了。实际上，量表往往不能告诉我们病人究竟是意识清晰还是意识障碍，某个症状系出现在怎样的精神状态或背景之下。就单个的症状而言。它的临床价值不仅在于它本身，还取决于它与其他症状的关系和相互影响。精神病理结构较之个别症状更能说明障碍的性质、严重程度、缺陷和代偿的动态以及疾病发展的阶段。人格特征(不沦是正常人格还是人格障碍)在临床相中的表现和作用，从症：扶量表中是几乎看不出来的。总之，从方法学的角度说，量表是单纯分析的而非综合的，这不能不说是一种严重的局限性。
二、用线性刻度对多变量症状进行估计
制定量表时有一个理论性假设：每一症状(或景表中的项目)是一个一维变量，因而可以用单一的“尺度”去“衡最”佣豪实并非如此。一张书桌尚且包含许多变量(如长宽高，设计和加工的质量，木材和油漆。抽屉和柜子的配置．各种配件如把手和锁的质量，装饰成分和式样等等)，何况精神现象呢?
随便举个例子。
在简明精神科量表(BPRS)中，“情绪退缩”就是一种多层次多维现象。所谓多层次，是说情绪既有生物学或生理学的层次．也有心理学的层次。变量之多实在难于尽举。不同程度的主动接触和不同程度的被动接触二：者可以有各种组合，这已经不易评分了。加上所接触的是什么人和在什么情况下发生接触，都随病人特点和病的性质不同而可有种种不同表现。更何况除了与人接触以外，情绪退缩的性质和程度还可以表现在其他许多方面，如对环境变动是否关心，对国内外大事是否注意，有无娱乐活动，每天的时间是怎样度过的，等等。当然，只观察外现活动还不够，还必须了解病人的内心体验。这么复杂的现象，用l至7七个数字能够刻画出来吗?
幻觉和妄想在症状量表中照例都被视为一种一维变量。举个最简单的实例：没有批判能力但出现频率很低的幻觉，跟持怀疑态度但出现频率相当高的幻觉，究竟哪一种情况严重些?这是很难评判的。
再以R．C．Young的“躁狂量表”中第三项“性欲”为例。实际上，大家都很清楚，性欲在躁狂状态中不仅可以有从“正常”到“亢进”之量的变化，也常常有性质的改变。再者．把性心理和性的生物方面混为一谈笼统加以评分，也是不恰当的。
三、各种症状等量齐观
不同的症状性质往往大不相同。对于诊断来说，某些症状有较高的特异性，有些症状则几乎没有特异性，显然不能等量齐观。
以Newcastle量表为例。如果既往有过不止一次典型的抑郁发作，那末，光凭这一项就可以确诊为内源性抑郁症，而有无相应的心因这一项的鉴别诊断价值却小得多。
不少量表把躯体症状和精神症状等量齐观，这在理论上是完全错误的，因为单纯躯体症状根本不能构成任何精神障碍的诊断根据。
在临床总体印象(Clinical Global
Impression)的第三个量表评定“效果指数”项下，有所谓药物引起的躯体副作用跟精神症状的改善相比，无异于斤与尺相比，实在是不伦不类。
由于症状的性质各异，把各项分数加起来的做法在理论上很难站得住脚。这样的病例并不少见：症状量表评分总分下降表明有“显著进步”，而有经验的医生们一致认为病人已出现缺陷。情况在朝坏的方向发展。
四、把不同性质的症状说成只是程度上的差异。
举一个明显的例子。Hamilton抑郁量表第20项“偏执症状”规定：猜疑评分为1，援引观念评分为2，被害及关系妄想评分为3，伴有幻觉的被害及关系妄想评分为4，显而易见，猜疑，援引观念，妄想是三种性质不同的现象。有些妄想病人在起病和恢复过程中表现有猜疑，这是事实，但据此便一概而论．似乎猜疑只不过是妄想的轻微形式．似乎妄想总是由猜疑发展而来，那就错了。众所周知．原发性妄想与猜疑可以毫不相干。一辈子猜疑严重而从不出现妄想的人电不少见。再者，伴有幻觉的妄想难道一定比不伴有幻觉的妄想严重吗?幻觉和妄想并不是两个不同重量的砝码!
BPRS对猜疑与妄想的处瑚跟Hamilton抑郁量表如出一辙。量表的制订把不同的人们推上了同一条理论思维上错瀑的道路，由此可见一斑。
五、忽视了过与不及都可以是病
仍以BPRS为例。第一项是“对身体的关心”。按规则．评分时不考虑病人身体究竟有没有病；不关心评1，关心愈甚．评分愈高．症状也就愈严重。这样一来，即使身患不治之症也毫不关心的心理状态便被评分正常了。其实。这种心理是很不正常的，可能是情感淡漠、妄想性否认等的一种表现。又例如，第二项“焦虑”的评分也是一样。可以断言，不论境遇如何一概毫不焦虑，绝不是精神健全的表现。
六、只考虑症状本身而不顾条件因素
对于生活事件、环境的变动，躯体情况以及治疗的影响等。症状量表照例是不加考虑的。这样一来，评分是否能正确反映症状的轻重程度是非常可疑的。举一个简单的例子。目前已有多种药物能够有效(至少在短期内如此)改善睡眠。评分失眠的轻重程度时只管病人睡多少小时而不管服药与否，显然不恰当。再例如，服用抗精神病药物的病人往往坐立不安，量表不管药物，这种药源性焦虑便与疾病固有的焦虑等量齐观了。
七、遗漏或封闭性
量表规定了评分的症状或项目，超出规定范围以外的任何现象对于量表来说等于不存在，这就不可避免迟早要导致重大的遗漏或疏忽。临床观察和检查当然不可能包罗万象，但它是开放性的，它把防止重要遗漏的任务交给了医生的知识、经验、理性、健全的常识和责任感，这就有了最可靠的保证。
不久前，作者在综合医院会诊了一位病人，病史报告使人很难确定诊断。检查时发现病人正在接受眼科治疗，原来病人在入院前一昼夜中陷于木僵状态时由于持续睁大双眼不眨眼皮发展了暴露性角膜炎。这就使会诊者有理由排除了心因性木僵的可能。类似这样的重要线索，即使是一本厚书也不可能一一列举，更何况一张量表。从这个角度看，最好的量表也只能作为诊断的辅助工具。
八、排它性
为了一致性，量表对精神科医生的临床经验取排斥态度。它要求医生严格按量表的定义和评分规则办事，不得违反。已经发现，经验丰富的精神科医生往往不是好的评分者。这很容易理解，因为按健全常识办事的医生是不愿意削经验之足去适量表之履的。
量表不仅排斥个人的经验，它还往往置公认的概念jf不顾而经营它独特的一套。例如，PSE硬说思维回响(Gedan
Kenlautwerden，thought—echo)不是幻觉，(第57号症状)。又例如，PSE对“完全妄想”的概念也是与众不同的：“倒如，他把妄想当作真的而采取行动，那就不论受检者在交谈时对妄想的相信的程度如何而应评分(2)。'’(引者注：评分(2)就是评为“完全妄想”，即病人确信不疑。)把某种想法“当作真的而采取行动”，跟“完全的确信，，并不是一回事。举例说，强迫症病人常常把他们的疑虑和耽心“当作真的而采取行动”。但并没有相应的确信。这种道理本来显而易见，PSE的作者却熟视无睹。为什么?一致性的追求蒙住了他们的双眼。
九、为了一致性不惜牺牲真实性
为什么症状量表只管个别的症状而不管整个临床相：后者太复杂，评分不易一致。
为什么症状量表把复杂的症状的各种：f：同性喷统统归结为少数几个数码表示的等级?为了便于统一评分标准．为了一致性。
症状量表为什么把不同的症状等量齐观。，还是为了一致性。
症状量表为什么硬把性质不同的现象说成是一现象的不同严重程度?为什么不考虑影响症状的各种条件因素?为什么闭关自守不怕遗漏?为什么对医生个人的经验取排斥态度?为什么不顾公认的症状概念?
一句话，为了一致性不惜牺牲真实性。
“根据在几种场合下出现幻听且不限于一两个单词诊断精神分裂症，就像选拔篮球专业运动员规定标准为身高至少7英尺一样。显然，测量身高比起判断操作篮球的技巧来是一种一致性要高得多的办法，但一心想着身高这条标准却不大可能选得出夺锦标的篮球队来。”
G·E·Vaillarlt(1984)的这段话尽管挖苦得太厉害了，他主张：不应为了一致性而牺牲真实
性这个观点却是对的。R．L．Spitzer(1
984)反驳说，没有一致性就谈不上真实性。这显然有点强
词夺理。因为事实上是并不尽然的。张三说A．李四说非A，不一致，却总有一个人的说法是真实的。精神病学史上有许多杰出的医生主要根据个人的观察(根本不考虑什么一致性检验)提出了深刻反映客观真实的临床症状群或疾病，难道不足以汪明没有一致性完全可以有真实性这条真理么。
当一致性与真实性发生矛盾时，毫无疑问．应该舍弃一致性而维护真实性。在改进临床检查和研究方法时，应该在尽可能不降低真实性的前提下去提高一致性，而不应该反此道而行之。
神经衰弱的诊断在美国曾经风行一时。什么叫做风行?实质上就是这种诊断的一致性很高。现在呢?相反的一致性也出奇地高，一致否认有神经衰弱这么一种病了。这说明，在一定的历史条件下，许多人一致的观点有可能是一致地错了。其他诊断类别和不同治疗方法的风行一时，往往也存在类似的问题。回顾这些历史难道不足以使片面追求可靠性者引以为戒么?
症状量表是一种工具。工具差不多总是有用的，关键在于，只有了解工具的局限性，才能有效地使用它；也只有深刻分析工具的局限性，才能不断改进它和发展它。
对量表的作用估计过高，是由于抹杀了起着更加重要作用的其他因素，例如，精神科医生的临床经验、双盲法、科研设计的改进、其他有关学科的进步，等等。
对量表的作用估计过高，还有哲学上的根源。这就是把评价(rate)跟测量(measure)混为一谈。J K
Wing等人(1974)把他们写的PSE手册题名为《精神科症状的测量和分类》，显然是错用了“测量”这个词和概念。测量指用一定的物理量去比较。可见，只有物理世界才是可以测的。严格地说，心理本身是不可测量的，只能评价。所谓尺度，用之于内在的精神现象，只是一种隐喻，就像我们说某人有七分成绩三分过失一样。对精神症状进行评分，跟裁判员对体操运动员进行评分，性质是相似的。“美”这个价值范畴在体操评分上起作用，正如“善”这个价值范畴在精神症状评分上起作用一样。
对量表的作用估计过高，在我国，显然还跟西方的科学技术比我们先进这一事实有关。正是在这一点上，我们可不能忘了历史的教训。过去，我们盲目搬用苏联的一套，吃了大亏。现在，面对着西方的科学技术，我们再也不能盲目搬用了。量表再妙，缺乏批判力的头脑也无法用它来推动科学的进步。
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。}

叫阿莫西中心