有关14篇英文故事的概括50dede标题字数限制制

点击联系发帖人 时间：2015-03-08 04:14

textfield限制字数

英语学习专题
听写强化训练系统有听写比对,按句停顿,中文翻译、听写错词提示等特色功能.
提供经济学人中英双语版文章、音频、中英字幕，类别包括文艺、人物、科技、商业等..
关注可可英语官方微信,每天将会向大家推送短小精悍的英语学习资料..
听力入门节目推荐
视频听力节目推荐
媒体资讯节目推荐
美文和演讲节目推荐
品牌听力节目推荐
可可英语官方微信(微信号:ikekenet)
每天向大家推送短小精悍的英语学习资料.
添加方式1.扫描上方可可官方微信二维码。
添加方式2.搜索微信号ikekenet添加即可。主题：【分享】统计学的故事
浏览 |回复9
省部重点实验室
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2019107 jietielvname_gl0%
关注： |粉丝：
新手级：&新兵
发表于： 19:10:40
第一回& 人类发现了统计统计改变了世界　　　若想了解上帝在想什么，我们就必须学统计，因为统计学就是在量测他的旨意。　　　& & & & & & & & & & & & & & & & & & & & & & & & & & ――南丁格尔　　　列位，一般故事或小说的开头总是写的比较虚，没有什么干货，只是交代一些背景。平均说来，到了第三回主要人物才出现，到了第五回矛盾冲突才展开。本文也决不敢例外。　　　大千世界，芸芸众生，悠悠上下五千年，坐地日行八万里。这个世界所在的宇宙真奇妙，时间上没头没尾，空间上没边没沿。世界上的万物真复杂，自然界和人类社会好像都受到某种力量和规律的支配，可怜的是我们还无法确切地认识、把握这些力量和规律，偶然事件常常捉弄我们的命运。这个世界上的人们真倔，非要把这个很难描述的世界，包括客观世界和我们的主观世界整明白不可，大到宇宙空间，小到基因和纳米，探索者前仆后继，没完没了。　　　任何值得一提的文明都探索过真理，冥思苦想的人们尽管不能完全确切的，但总是试图解释复杂多变的自然现象和人类自身。　　　在很早很早以前，人们认为自然是神秘、无序，甚至是恐怖的。而人类自身也有很多谜题，例如，人类为何定居在这个地球上，人生的目的是什么，人类的终极归宿何在，等等。这些问题的答案一般是由宗教领袖给出的。　　　过了很多很多年，智者、思想家和勇敢的科学先驱们，或统称为人民，逐渐摒弃了上帝按其意愿创造了人和物质世界的信仰。他们发现人类有智慧，用思维，佐以观察或实验，就能够发现各种谜一样的自然活动和人们自己。他们用思维与似乎瞬息万变的现象抗争，并将理性之光洒于其上。先驱的态度是理性的、批判的和反宗教的。由于他们的态度较好，终于得出了这样一些结论：自然和人类社会是有序的，按完美的设计而恒定地运行着，从星体的运动到树叶的颤动，从人们的行为到人们的观念，所有感官能感知的东西都能用一种精确、和谐而理想的形式来描述。用土话说，自然和社会都是有规律的，这种规律虽然不受人的主观意志的影响，却能被人的思维所理解。　　　又过了很多很多年，经过无数人大胆的观察、敏锐的猜想、天赋的直觉和一不怕苦二不怕死的精神，建立了现代科学的理论体系和思想体系。在天文学、物理学、生物学、人文社会科学以及数学和哲学等领域都取得了重大成果。虽然数百年来，科学和哲学的门派林立，各自有各自的掌门人，各自占据着各自的山头，都因自己发现真理而笑傲江湖。但有一个基本观点被大多数人承认，即这个世界是有规律的。我们是否可以用身边的事和通俗的语言解读一下科学巨匠们所研究的规律。请想一想，我们身边经常发生的重复出现的、有规律的现象：太阳每天从东方升起，冬天过去春天就要来临，物体失去支撑就会坠落，“神舟五号”飞航按设计的轨道运转，经济按市场规则运行，奔波的人们按自己的哲学度日。对不同领域中的规律进行探索和描述便形成了不同的学科。将不同学科的理论、方法、思想进行提炼，便形成了哲学、数学、统计学这样一些横断科学。　　　同时，我们在发现我们周围的事物没有任何一次重复是完全的“克隆”，没有任何东西会把一切细节完全重复出来。太阳每天从东方升起，但天安门广场上与太阳同时升起的国旗其升旗时间却每天不同；冬天过去春天就要来临，但今年的春色比去年更加明媚；物体失去支撑就会坠落，但受风速、风向、地心引力等很多细小因素的影响，两个同样重的物体坠落速度和落点会有差别；“神舟五号”飞船按设计的轨迹运转，但每次经过我国领空的时间都略有差距；经济按市场规则运行，但今年的GDP比去年增长8%；奔波的人们按自己的哲学度日，但一年又一年我们的生活逐渐发生了改变。因此，任何科学都只能预见大体上的重复现象。　　　行笔至此，我们是否感到统计学太重要了。统计学就是通过差异描述规律；透过现实走向理性，走出混沌，走向秩序的学科。“可以毫不夸大地说，现代科学的发展是在关注大数目现象的标志下进行的，很快就不会有不了解研究的随机性――统计方法的知识分支了”。的确，理、工、农、医、文，今天很难找到一个不使用统计的学科了，它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。统计学是科学的“母亲”和“仆人”。说她是“母亲”，因为统计学为其他学科起着孕育、生产新思想的作用；说她是“仆人”，因为统计学是其他学科的工具，用统计规律逼近客观规律的工具。　　　但是，故事总有插曲，关于统计学客观基础问题的争论，从来未停止过。从古希腊思想家那里开始到现在，一直存在两种对立的意见。一种意见认为，世界的本质是确定的，随机性只是由于人们认识的局限性而产生的噪音，他们总是将所有现象都解释成无微不至的事物秩序所产生的结果，在事物的重复出现中会因很多细节而产生差异，但这种差异只是目前人们还不了解这些细节而已。统计学只是对随机性差异的度量，是主观内容的范畴，在客观世界中没有什么对应他们的东西。虽然，统计学在科学研究中起着重要作用，但这个作用只是在认识过程中由相对真理到绝对真理的迈进中的作用。因而，这种意见认为，只有数学才能牢固把握客观世界的所作所为，能瓦解玄秘并代之以规律和秩序。而统计学则是由于人力所不及不得已而为之的方法，其基础不是客观的，只是人们知识不足和信息不完备的代名词，虽然统计学是我们人类自己发明的探索客观规律最好用的方法，但数学才是上帝的宠儿，统计学只是人类的智慧。爱因斯坦给波尔的一封信中有这样一句名言：“你信仰掷骰子的上帝，我却信仰客观存在的世界中完备的定律和秩序”。¬文中暗表，那个时期人们所说的上帝似乎有两种意思，一种意思是神学中的上帝，和中国的玉皇大帝、灶王爷之类的东西相似；另一种意思是好像是指不为人们的意志为转移的客观规律，斯密的“看不见的手”与其有点相近。在那个神学和科学混合的时代，这两种意思很难分清楚，只好麻烦读者自己判断。直到20世纪初，科学界一直是这种观点，即机械决定论占统治地位。牛顿力学被称为科学思想的典范，学者们总是力图使科学规律符合严格确定性的理想。　　　关于统计学客观基础问题的另一种意见认为，随机性本身也是客观的，统计学则反映的是知识体系中不依赖于人的关于客体的内容，上帝和人间的赌徒一样，也喜欢掷骰子。有一个著名的故事：拉普拉斯把他写的《天体力学》献给拿破仑。《天体力学》是一本极具影响力的书，描述了如何根据地球上的观测数据，来计算行星与彗星的位置。拿破仑看后说：“拉普拉斯先生，你写了这本关于宇宙系统的书，却根本没有提到他的创造者――上帝”。据传说，拉普拉斯回答道：“我不需要这个假设条件”。　　　拉普拉斯的《天体力学》虽不需要上帝，但它需要另一种东西，叫误差函数。从地球上观测行星与彗星的位置与预测值并不完全吻合，拉普拉斯将其原因归结为观测误差，包括随机误差和人为误差，并都放入误差函数中。当时的科学家都认为，随着测量越来越精确，最后一定不再需要这项误差函数。谁知，到19世纪末，随着测量越来越精确，反而越来越测不准了。最终人们发现，这些误差一方面是由于测量技术问题，另一方面是由于被测量的客体本身具有随机性。机械式的宇宙观开始动摇，一些企图寻找生物学定律和社会学定律的努力也徒劳无功，甚至有些传统学科领域，如物理学和化学当时所用的那些定律，也被认为仅仅是粗略的逼近。科学家从理论上和实践上都充分证实了严格决定论对描述客观现象的不适应性和不可归结性。布朗运动、混沌动力学、量子力学、耗散结构都证明了经典决定论已逐渐向统计决定论转移。人们的科学观念发生了新的变化。自然和社会中不规则、不连续、不稳定、非平衡的领域不断扩大，其中充满了涌现、转化、意外和机遇。科学探索也达到了这样的境界：科学家对客观事物的描述和预测的精度已不能通过改进操作技巧，提高测量的精密度加以改善，他们发现根本没有可能发现严格的因果依赖性，可以找到的只是统计的因果规律。　　　您瞅瞅，统计的用处有多大，尽管统计学的客观基础问题还在争论不休，但统计已改变了世界，已成为科学与管理的工作母机，现在，谁也离不开统计了。人们形容一个智障的人时常说：“这个人缺数”，译成专业术语就是：“这个人不懂统计”。统计也成为现代人基本素质的构成要素，成为我们世界观的一个组成部分。人类的处境挺可怜的，我们是广褒宇宙中的流浪汉，孤单地生存在一个冷酷、陌生的空间里。我们可能是在最近一个冰川期后起源的，在自然的劫后余迹前孤立无援，生存在茫茫的时间中。我们依靠地球提供衣食，我们每个个体的出生都是随机事件的牺牲品。为了解决生命的寂寞、穷困、艰险和短暂，我们要与天斗、与地斗，不知为什么还非要与人斗。斗争中却也其乐无穷，凭着一点有限的感性知识和大脑，人类开始探究自然和自身，寻求真理和秩序，建立可以帮助我们获取有关生存环境奥妙的知识体系和解释模型，而我们的辉煌成就之一就是统计学。尽管我们现在还不很清楚，统计学的出现是由于人的聪明，还是“天籁之音”。　　　多少年来，在深奥的学术争论和枯燥的统计数据背后，有好多美丽的故事和动人的传说。我们试图收集一些讲给大家听。一般故事中没有美女，便不引人入胜，为满足大家对美的渴望，本文下期便有美女出现，请君欣赏，请看第二回：美女午间品茶费雪突发灵感。　　　参考文献：　　　[1]《统计，改变了世界》萨尔斯伯格著，叶伟文译，台湾天下文化书坊，2002.4　　　[2]《世界统计名人传记》龚鉴尧著，中国统计出版社，2001.1　　　[3]《统计发展史》陈善林、张浙编著，立信会计图书用品社，1987.9　　　[4]《殴美统计学史》高庆丰，中国统计出版社，1987.8
该帖子作者被版主
透明加 5 积分，
2经验，加分理由：话题
省部重点实验室
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2019107 jietielvname_gl0%
关注： |粉丝：
新手级：&新兵
第二回& & 美女午后品茶&
费雪突发灵感　　　养猴人心中暗笑：“朝四暮三和朝三暮四，不是都等于七吗？这畜牲就是不如人聪明。”猴子们窃窃私语：“朝四暮三和朝三暮四，虽然吃到肚子里都等于七，但朝四暮三更符合早吃饱，晚吃少的科学道理，不信去问问费雪。人虽然比我们聪明，但没学过统计的人，智商还真不如我们高。”　　　& & & & & & & & & & & & & & & & & & & & & & & & & & ――新《齐物论》　　　& 二十世纪二十年代后期的一个夏日午后，一群风度翩翩的学者偕夫人及漂亮的女友，正在英国剑桥的户外餐桌旁，悠闲的品茶论道。席间，一位美丽的女士惊呼，午茶的调制顺序对味道有很大影响。把茶加进牛奶里和把牛奶加进茶里，喝起来风味完全不同。出于对女性的尊重，那些学者们面带绅士的微笑，内心却不以为然，甚至是藐视，依据他们的科学头脑分析，茶和牛奶两种物质混合结果的化学成份不会因为调制顺序不同而产生不同，怎么会喝起来不一样呢？文中暗表，这个命题的假定前提是不论调制顺序如何，牛奶和茶的比例是固定的或是基本不变的。美丽女士提出的问题是朝四暮三和朝三暮四的关系，而不是朝四暮三和朝四暮四的关系。古板的英国绅士一定会把古板的精神带到生活细节中，所以这个假设前提一般会成立。书归正传，正当众学者对美丽女士的说法嗤之以鼻时，有个身材瘦小的，嘴上留着灰白胡子的绅士挺身而出，抓住了这个问题。　　　此人便是在统计发展史上地位显赫、大名鼎鼎的费雪（Ronald Aylmer Fisher，），伦敦人氏，英国统计学家。费雪当时显得非常兴奋，好像发现了大元宝。“让我们来检定这个命题。”说着，在众位学者的帮助下，他开始进行实验。他们设计并调制出很多杯不同的茶，有些先放茶水再加牛奶，有些先放牛奶再加茶水，然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨，但她并不知道每杯茶的调法。费雪端给她第一杯茶，她尝了一口，然后说出这杯茶是先放茶水后加的牛奶，还是先放牛奶后加的茶水。费雪记录下她的说法，再送上第二杯，……。　　　读者可能会问，这个看上去没什么科学价值的实验，是我们的这位尊敬的费雪先生从事科研之余闲着没事干，找个由头和美女套近乎，还是有什么别的原因。　　　说来话长，从16世纪甚至更早的时候起，科学实验已经进行了几百年。实验是发现、检验和积累知识的工具。但是在费雪时代以前，实验带有科学家个人浓厚的独特风格，并没有科学的规范、程序，更谈不上实验设计。一流的科学家可以做出很有价值的实验，产生新知识；而不入流的科学家只是盲目地进行实验，虽然生产出一些数据，但对生产和积累知识没什么用处。此外，19世纪以前的科学家很少发表自己的实验结果，他们仅描述研究结论，并公布那些能证明此结论真实性的数据。至于实验过程和实验结果的科学性和可靠性我们不得而知。虽然科学是从发现问题、周密思考、观测与实验发展而成的，但究竟要怎样做实验，却从来没有被提及。经过多年的成功与失败，实验设计的理论和方法才发展起来。　　　1857年，奥地利统计学家孟德尔（Gregor Johann Mendel，）不知为什么突然对豌豆情有独钟，非要把豌豆及遗传规律弄明白不可。他在教堂的后花园内一块不到2400平方英尺的畦田上，对豌豆及和豌豆有关的属类进行了实验，一干就是八年。经过八个春秋的耐心实验、仔细观测、不厌其烦，终于从宝贵的实验数据中获得了具有普遍意义的遗传统计规律。孟德尔成功的诀窍之一就是在整个实验进程中，自始至终都闪烁着可贵的统计思想。孟德尔靠自己敏锐的直觉，无意中按照现代推断统计的初步原则，粗糙地进行了实验设计。也就是说要设计一种较少规模的实验，既要保持植物天然杂交的程序，具有一定的代表性，又要尽量简化不必要的过程和减少偶然的随机干扰，便于观察研究。费雪在1936年指出：孟德尔是在总结前人实验的基础上，已经从理论上预料到会出现什么样的数据，然后才去安排实验的，因而只需要不多的数据就得出完美的结果。但是孟德尔只是公布了能够证明结论的数据，而不是全部实验数据。1940年，费雪检验了孟德尔公布的数据，发现这些数据完美得像真的，根本没有展现应有的随机程度。　　　在孟德尔之后，统计实验有了很大的发展，以剑桥学派首要人物贝特森（William Bateson，）教授为首的遗传实验学派主张在实验中贯彻样本统计推断思想，以园田小样本实验为基本方法。他们认为没有一定实验设计在事先指导，就是把数据收集得再多，也难说是很充分的，说不定还可能是没有价值的。如果事先有了精心的实验设计，就不需要大样本，其结果也能够接近理论预测水平。可见，贝特森学派的统计实验已接近现代推断统计。　　　以英国生物学家和统计学家皮尔逊（Karl Pearson，）为首的生物统计学派以统计观察和描述作为进化和遗传的研究方法。他们认为：从大量信息中提取出的数据是得出一切正确结论的充要条件，其有效性是不可怀疑的。而仅仅做几个实验就推出全面的结论，在他们看来只是井底观天，是危险的。令人反感的（Naughty）从大量观察中整理和计算出有说服力的数据才是实验的关键。因而生物统计学派在整理手段和计算手段上取得了很大的成绩，如卡方检验、相关法、回归法的发展和完善等。　　　1899年，英国统计学家戈塞特（William Seely Gosset，）在都柏林找到了一个令笔者垂涎的职业，到一家酿酒公司担任酿造化学技师，从事统计和实验分析工作，可以边喝啤酒边搞科研。但戈塞特首先碰到的困难，是供应实验用的麦子数量有限，无法采用当时通行的大样本观察和推断理论，而且每批进厂原料的质量都有所波动，对温度的变化也很敏感。万般无奈，戈塞特着手从小样本开始分析实验数据。小样本数据存在两个问题：一是误差怎样解决，二是如何从中尽可能得到较为可靠的结果。酒是个好东西，李白斗酒诗百篇，戈塞特的酒也没白喝。他经过反复研究实验，确立了小样本理论。1908年戈塞特以学生（student）为笔名，在《生物计量学》杂志上发表了“平均数的概率误差”。由于这篇文章确立了“学生t检验”的基础，因而许多统计学家把1908年看作统计推断理论发展史上的里程碑。将戈塞特称为小样本理论的创立者和实验分析的先驱。费雪称他为“统计学史中的法拉第”。　　　费雪生的挺是时候，前面有很多科学家在实验设计方面积累了经验和教训，眼下又有美女相伴引发了灵感，更重要的是他的天赋和勤奋，创立和完善了实验设计理论和方法。　　　自1919年起，费雪在卢桑姆斯坦德农业实验站工作了14年，在实验活动中，不断收集肥料、雨量、遗传、土质、细菌、收获量等资料。与孟德尔修道院的后花园的条件相比，实验的环境更不易控制。引起实验结果差异的因素主要有两个：一是在田间实验中，土质、光照等客观条件不同；二是实验方法不同。由于这两个因素往往同时起作用，因此，如何从总差异中分解出这两个因素各自的影响以及如何测定它们，是费雪所面临的问题。经过多年的努力，自1923年费雪陆续发表了关于在农业实验中控制误差的论文。首次提出了方差分析、随机区组、拉丁方等控制、分解和测定实验误差的方法。这样，费雪的主要实验设计方法在20至40年代完成。　　　 1935年，费雪完成了在科学实验理论和方法上具有划时代意义的一本书《实验设计》。在书的第二章，费雪就提到了剑桥午后的品茶和那位美丽的女士。当时，费雪设计了各种可能的实验方法，来测试美丽女士能否分辨出不同的茶。问题是，如果美丽女士只是哗众取宠而没有真本领能分辨出不同的茶，那么拿一杯茶给她品尝，她也有50%的机会猜出这杯茶的调制方法；如果给她两杯茶，她还是有猜出的可能；如果给她两杯调制方法不同的茶，她可能一次全部猜错或全部猜对。如果美丽女士有真本事，确实能够分辨调制方法不同的茶，但她还有可能弄错，或是茶水和牛奶没有混合好，或茶水温度不够影响了味道，或她喝了很多杯以后感觉已经不太灵敏。总之，品了十杯茶，有可能会弄错一杯。在书里，费雪讨论了各种可能结果，描述了该准备多少杯茶，依照什么顺序拿给她，然后根据她回答的正确与否，计算出各种结果的概率。这就像笔者给学生出考卷一样，根据教学的内容，一份考卷应出多少道题，各类题的顺序如何，选择题的备选答案如何排列。总之，是为了让学生考出水平，让好学生可以得高分，让不好好学习、仅凭临阵蒙事的学生，可能蒙对一、两道题，但还是不及格。　　　费雪的成就引起了广泛关注，首先是农业科学家了解到实验设计的伟大价值。不久，费雪的方法成为农业科技上的主流学派，后来又被他的学生推广到其他科学领域。　　　至于剑桥午后品茶的那位女士，据说她能分辨出每一杯茶，全部答对，看来，这位女士不仅仅是美丽。　　　哲人说得好，女人是感性动物，男人是理性动物。如果感性动物与理性动物联起手来，科学的天空将更加美丽。请看第三回：彩虹为何眩目且听统计描述。　　　参考文献：　　　[1]《统计，改变了世界》萨尔斯伯格著，叶伟文译，台湾天下文化书坊，2002.4　　　[2]《世界统计名人传记》龚鉴尧著，中国统计出版社，2001.1　　　[3]《统计发展史》陈善林、张浙编著，立信会计图书用品社，1987.9　　　[4]《殴美统计学史》高庆丰，中国统计出版社，1987.8
省部重点实验室
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2019107 jietielvname_gl0%
关注： |粉丝：
新手级：&新兵
第三回& & 彩虹为何眩目& 且听统计描述　　　& 如果人总是从一滴水中观察光线的反射，他就很难理解美丽的彩虹现象　　　& & & & & & & & & & & & & & & & & & & & & & & ――凯特莱　　　有一句歌词写的挺好：“不经历风雨怎能见彩虹”。好就好在写得有些道理。　　　第一，这句歌词写清楚了风雨和彩虹的关系。风雨在前，彩虹在后；风雨是因，彩虹是果；风雨是解释变量，彩虹是被解释变量。　　　第二，这句歌词还告诉我们，透过一滴雨水是看不见彩虹的。虽然歌词没有讲清楚能够看见彩虹的雨是中雨、大雨、还是暴雨，但必须是有足够多的雨滴组成的雨。词作者可能不懂统计，但他有大数定律的朴素思想。　　　但是，歌词写得虽好，在理论上还存在一些问题。在自然现象中，风雨一般是结伴而行的，有一句话叫“风雨交加”嘛。但经科学分析，我们可以得出结论，风和彩虹没什么相关关系，将风雨加在一起写进歌词，好像风和雨对彩虹的出现各有50%的贡献，与事实不符。显然，词作者在这方面的知识不如凯特莱，至少他不懂变量筛选技术。更严重的问题是，词作者遗漏了一个更重要的变量，即雨后的阳光。不论雨量大小多么适合彩虹出现，如果雨停的时间正好是后半夜，也绝见不到彩虹。　　　如果笔者写这句歌词，绝不会出现上述的不严密。　　　比较准确的表述是：雨后的天空，当雨滴还飘散在空气中，来自远距离的太阳光线投射在雨滴上，产生一系列的彩色圆弧，可分解为赤、橙、黄、绿、青、蓝、紫七色光带，此时天空中的景色异常美丽，这就是人们通常所说的彩虹现象，简称彩虹。有时在彩虹的外侧还能看到第二道虹，光彩比第一道彩虹稍淡，称为霓。虹和霓的色彩排列次序正好相反。虹的色序是外赤内紫，而霓的色序是外紫内赤。以上表述便是彩虹的比较全面的定义。此定义虽比原歌词严密，但估计谱上曲子唱出来，可能没有原歌词上口。　　　多少年来，在人们看来，彩虹是美丽而神秘的。史书有记载，民间有传说，少女借其抒情，词人借其咏志。早年间，希腊女神Iris把彩虹作为警示和希望的征兆；在非洲的神话中，彩虹被认为是暴风雨过后出来掠物的巨蟒；我国殷代甲骨文中，认为彩虹是龙在雨后的显形，所以虹字带上了“虫”字旁，并一直沿用至今。　　　科学家，这里主要指物理学家和统计学家忒不会浪漫，他们非要打破人们对彩虹的七色梦幻，还其以一个用科学解释和变量描述的本真。经过他们几百年的努力，彩虹的谜团正在解开。　　　“赤橙黄绿青蓝紫，谁持彩练当空舞”。是什么东西决定了彩虹的出现，彩虹为什么有七种颜色，七种颜色为什么又有特殊的排列，彩虹为什么在当空舞成一个抛物线，即一段圆弧，“当空”到底有多高，即什么决定了彩虹的高度，为什么虹出现以后，有时还会出现霓，等等。从十四世纪开始，科学家包括笛卡尔、牛顿等一些科学巨匠就开始捉摸这些问题。逐渐地，人们开始认识到彩虹与雨滴对光的反射和折射有关。　　　任何一门应用统计，都是统计理论与方法和所应用领域学科的结合。经济统计学就是统计理论与方法和经济理论的结合。彩虹问题也不例外，应当是光学与统计学的结合。但笔者的光学知识甚少，只停留在光线太暗了什么都看不见，光线太强了刺眼的水平上。所以，在彩虹问题上笔者出现的系统误差请读者不要太挑剔。　　　远在1657年，法国数学家、物理学家、概率统计的奠基人费尔马（Pierre de Fermat，）提出了著名的Fermat原理。费尔马发现光线是沿直线传播的，遇到障碍物又能拐弯，由于介质不同或不严格地说障碍物不同，光线的拐弯可分为反射和折射。　　　我们假定天空中的雨滴是一个球体。太阳光从远处通过空气射到雨滴，由于远处很远，所以可以假定太阳光线是相互平行的。阳光从空气穿过雨滴的过程中，一部分光线被反射，另一部分光线通过折射而进入雨滴内部，进入雨滴内部的光线又经过反射和折射，最后再折射回空气中，便形成了虹。如图所示：　　　A点为光线的照射点，即光线通过空气和雨滴的交接点。一部分光线经过A点反射出去，其余光线通过雨滴而折射，α是入射角，β是折射角，当光线折射到B点，再B点光线又经过反射通过C点，最后在C点折射回到空气中，这一过程称为一次反射途径。　　　如图所示，只要A点在雨滴的左侧上方任何一点，它都在雨滴的下半部离开雨滴。虹的出现与光线离开雨滴时的方向折射情况有关，即与光线的折射的角度有关。若光线是沿着圆的直径方向进入雨滴，则入射角为0°，折射角也是0°，最后光线从雨滴的后面反射出来退出雨滴，从顺时针方向来看，总的折射角是180°。由于圆是对称的，因而只需考虑左上部的四分之一圆上的点即可，即对于。在A点经折射，折转了，在点经反射又折射了，最后在C点再折射，设为光线折射的角度，则：　　　根据折射定理：入射角的正弦与折射角的正弦之比为常数，即有，称为折射率。因此，令，得　　　由&
可以得到，即　　　实验证明，光在空气中的速度大于在水中的速度。由于雨滴是水，折射率，所以有。并且有：。由于，，。其中。　　　所以，故，这表明在时，取得最小值。这就是虹出现的位置，射入角为59.6°的光线为虹光线，42.5°=180°C 137.5°为虹角。因此，雨滴在观测者的特定角度下，它将呈现较亮的光线。如果观测者处于顶角为二倍虹角的圆锥顶点处，这时用垂直于轴的平面去截圆锥，就会得到一个圆形的截面，每个锥表面上的雨滴都构成虹角，于是观测者就看到了天空中一条明亮的圆弧，这就是虹。　　　虹出现的高度依赖于太阳的高度。对于地面上的观察者来说，虹最多是个半圆。如果观察者能飞行到一定高度，虹则是一个完整的圆。　　　虹为什么有七种颜色呢，因为光线是一种电磁波，具有连续的波长光谱。波长在，看到的是红色，波长在，看到的是紫色，其它颜色的波长介于二者之间。而且，水的折射也依赖于所通过的光的颜色，红光的折射率为1.3318，紫色的折射率为1.3435。针对不同颜色的光，可以重复计算最小折转角。红光的最小折转角为137.7°，相对应的虹角为42.3°，紫光的最小折转角为139.4°，相对应的虹角为40.6°。也就是说，观测者在观看彩虹时，看到的红光圆弧略高于紫光圆弧，混有不同波长的阳光射在雨滴上，折射出各种不同颜色的圆弧，顺序为赤、橙、黄、绿、青、蓝、紫。　　　我们构造的彩虹模型只是一个理论模型，相当于回归分析中设定的理论曲线。在实际观测中，我们会发现彩虹的高度是有时高有时低，长度是有时长有时短，亮度有时明有时暗，弧度是有时弯有时缓，更接近一幅散点图。很多年来，时有学者对其进行观测和计算。牛顿经过测算，更正了“平行光线”的假定，得出了太阳直径允许有0.5°的偏差，虹的宽度约为2.2°的结论，与实际观测结果基本一致。　　　虹是由阳光的第一次反射形成的，而霓则是由第二次反射形成的，建立模型的基本道理一样，只是更复杂一些。为避免言多语失，让物理学家看见笑话，恕不赘述。　　　读者看罢此回，可能产生不满，统计是有用处，但彩虹用处不大。它不顶吃,不顶喝，远在天边，只有视觉享受。不如将有用的统计用于我们身边。笔者十分理解读者感受，我们不仅要将统计应用于我们身边，还要应用于我们身上。请看第四回：君欲减肥成功统计授你秘诀。
省部重点实验室
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2019107 jietielvname_gl0%
关注： |粉丝：
新手级：&新兵
　第四回君欲减肥成功统计授你秘诀　　　 “楚王爱细腰，宫中多饿死”。旧时的女儿家不仅痴情，而且无知，他们不知道不仅饿饭可以形成美丽腰身，而学会了统计学的有关知识后，不饿死也能使腰细得让“楚王”或白马王子喜爱。　　　 ――新编《人体投入产出模型》第五章　　　随着生活水平的提高，似乎出现了这样一个统计规律，恩格尔系数逐渐降低，人们身上的肉增长到临界值以上便形成了肥胖。目前，肥胖已成为社会关注的、特别是少女关注的一个重要问题。不仅从健康的角度，还是从审美的角度，人们越来越重视自己的身条儿。虽然，这些减肥食品中有蒙事儿的，众多减肥中心中有不健康的，但从人体所需能量的摄入和消费两个方面看，减肥的做法是有一定科学道理的。　　　古今中外，不少医学家、遗传学家、运动生理学家和追求瘦身的美女都探讨、研究和实践过减肥问题。笔者经研究认为，只有统计学进入这个领域后，才使得减肥问题变得更加科学和可测度。　　　古希腊哲学家亚里士多德有句名言：“运动太多和太少，同样地损伤体力，饮食过多和过少，同样地损伤健康；唯有适度可以产生、增进、保持体力和健康”。但是，亚里士多德没有提出适度的数量界限，即运动量多大才适度，运动量和饮食量如何搭配才适度。同理，几千年后，伟人毛泽东提出了“忙时吃干、闲时吃稀”的科学道理，但他也没有界定，忙到什么程度吃干，闲到什么程度吃稀，吃干时可忙到什么程度，吃稀时可忙到什么程度的数量标准。统计学介入后，情况就不一样了。　　　20世纪50至70年代，日本香川女子营养大学香川绫博士和五明纪春博士在数据调查、测算和分析的基础上，对800多种经常食用的食品进行了分析，根据营养成分、热量、对肥胖的作用以及膳食搭配习惯等标志将其分成四组；又根据日本人的基本代谢、日常生活活动和运动对能量的消耗进行了数据分析，得出了相应的数据标准；绘制了不同性别、不同年龄组的人判定胖与瘦的相关图。同时，世界上许多国家的学者或研究机构也根据自己的人种，制定了有利于健康的膳食和运动的数量标准。我国生理科学会也修订了我国人民的每日膳食指南，刘来福和曾文艺教授提出了减肥模型。　　　为了维持人体正常生理功能的需要，我们要不断的补充能量。能量之源是营养素，或不严格地讲是食物。所以，我们一顿不吃饭就饿得慌。　　　人体需要多少能量，主要取决于三个因素：　　　一是维持人体基本代谢所需要的能量。基本代谢是指我们躺在炕上一动也不动，机体仍要进行的最低限度的必要活动，如保持体温、心跳、呼吸等。从理论上讲，基本代谢所需能量与人的体表面积正相关，在实际测度时，一般用人的体重代替体表面积。平均来说，成年男子每千克体重每小时平均消耗能量4200焦耳，成年女子为3500焦耳。　　　二是食物的特殊动力作用所消耗的能量，即将食物转化为人体所需能量而消耗的能量。不同种类的食物其特殊动力作用所消耗的能量不同，平均说来，食用普通的混合食物，其特殊动力作用所消耗的能量相当于基本代谢的10%。　　　三是人们从事劳动（包括体力劳动和脑力劳动）和各种活动（包括运动）所消耗的能量。不同种类的劳动和活动所消耗的能量不同，读者可参阅有关专业书籍。　　　如果我们日常摄入的能量等于上述人体的需要量，就能保持现有体重。如果摄入量小于需要量就要动用体内储存的能量而起到减肥效果，时间长了就会对身体产生不利影响，从腰变细直至饿死。如果摄入量大于需要量，多余的部分就会变成脂肪存储与皮肤下，久之，就使腰身变粗。　　　由于人体的脂肪使能量存储和提供的主要方式，也是减肥的主要目标，我们不妨以人体脂肪的重量作为体重和减肥的标志。已知每千克脂肪可以转换为4.2×102焦耳的能量，记作：D=4.2×102焦耳/千克，称为脂肪的能量转换系数。　　　人体每天摄入的能量用A表示。　　　人体通过劳动和活动消耗的能量用R表示：R=rh（焦耳/日）。其中，r为每千克体重每小时劳动和活动所消耗的能量。人不可能一天24小时都在劳动或活动，h表示每天劳动和活动的小时数。　　　人体用于基本代谢和食物特殊动力作用所消耗的能量用B表示，B=24b（焦耳/日）。其中，b为每千克体重每小时所消耗的能量，因为人体每时每刻都在进行基本代谢，所以要乘以24小时。　　　人，不可能一口吃成胖子，身上的肉是一天天攒起来的。同理，减肥也是个慢功，不可能一天就使得小蛮腰变成小细腰。所以体重是时间t的函数W(t)。因而，任何时间段内（t，t+△t），由于体重改变所引起的人体内能量变化应该等于这段时间内摄入的能量与消耗的能量之差，即：　　　[W(t+△t )－W(t)]D=[A－(B+R)W(t)]△t& & & & & & & & & & & & & &
(1)　　　以△t除以式（1）两端，并令△t→0取极限，可得：　　　dw/dt=a－dw& & & & & & & & & & & & & & & & & & & & & & & & & & (2)　　　其中：a=A/D，d=(B+R)/D。　　　式(2)就是减肥的理论模型。　　　设t=0位减肥模型启动的初始时刻，这时人的体重为w(0)=w0，以此为初始条件可求出式(2)的解为：　　　w(t)=W(0)e-dt+a/d(1-e-dt)& & & & & & & & & & & & & & & & & & & & &
(3)　　　在式(3)中，设a=0，即停止进食，从而无能量摄入，这时体重的减少完全是由于体内脂肪的消耗而产生，于是有[W(0)-W(t)]/W(0)=1-e-dt ，1-e-dt 表示在时间(0，t)内体重减少的比率，称为(0，t)内的体重消耗率。特别当t=1时，1-e-dt 给出了单位时间的体重消耗率。　　　a/d是个重要指标。由于a=A/D表示能量的摄入而增加的体重，而d=(B+R)/D表示能量的消耗而减少的体重，于是a/d就表示通过能量的摄取对每1%的体重消耗所获得的体重的补充量。　　　可以证明，对于式(2)来说，当且仅当W*=a/d&W0 时，有dw/dt&0，表明只有W*&W0 时，才可能产生减肥效果。从式(3)可以看出，对于W* ，当t→+∝，W(t)单调递减，并且有W(t)→W* ，也就是说式(2)的解渐近稳定于W* =a/d，它给出了减肥过程的最终结果。称W* 为减肥效果指标。从W* =a/d=A/(B+R)可知，B是基本代谢的能量指标，虽与人的性别、体重有关，但它不能作为减肥目的而任意改变。因而，减肥效果主要受两个因素影响：一是由于饮食而摄取的能量A，二是由于劳动和活动而消耗的能量R。　　　A与R如何对W* 产生影响呢，显然有：　　　A= W*B+ W*R& & & & & & & & & & & & & & & & & & & & & & & & & (4)　　　式(4)是R－A坐标系中过(-B，0)点，斜率为W* 的直线。　　　我们知道，人通过饮食摄入的能量不能低于维持人体正常生理功能所需要的能量，因而减肥指标存在着一个下限W1，当W*〈W1时，表明能量摄入过低，不能维持人的正常生理功能所需，时间长了就有饿死的危险，我们称W1为减肥临界指标。　　　人们为减肥所采用的各种劳动和活动也有一个人体所能承受的范围，因而能量消耗存在着一个上限R1，否则虽没饿死，有可能累死，我们记为0&R&R1。于是在R－A平面上，由R=0，R=R1，A=0所界出的区域内，被直线L0：A=W0B+W0R和L1：A=W1B+W1R分割为A，B，C三个区，如下图所示。　　　W0B　　　-B& & 0　　　W1B　　　R1　　　C　　　B　　　A　　　L0　　　L1　　　A区表明能量的摄取量高于体重为W0时的消耗量W0(B+R)，这时体重不会从W0减少，称为非减肥区。日本相扑运动员增肥时，一定经过这个区。　　　C区表明能量的摄取是A低于体重为W1时的消耗是W1(B+R)，因为W1为减肥临界指标，所以C区为危险减肥区，饿死的美女都落在这个区。　　　只有B区所表示的能量摄取量A与劳动和活动消耗量R的组合才能实现有效的减肥，故称B区为有效减肥区。上图还表明，活动量不变，只是一味节食，或饭量不变，只是一味加大活动量，都不能产生理想的减肥效果，两个因素必须协调。　　　上述减肥模型是从总体上构成的，忽略了年龄、性别、遗传、健康状况等个体差异。但减肥是个对症下药的个体行为，而个体差异对减肥的影响较大，有的人有遗传，是祖传的胖子，有的人吃多少东西都胖不起来，有的人喝凉水都长肉。因此，读者如果有兴趣，可以对自己的减肥状况进行一段时间的观察，记录下自己饮食的种类和数量，劳动和活动的种类和数量，将其核算成以焦耳或卡路里为单位的能量，利用减肥模型估计出自己的参数，科学有效地指导减肥。本文的目的是想给大家提个醒儿，不要盲目减肥，要树立科学的减肥观念。可能会有读者责问：“按照你们故事里教的秘诀，不但减肥没有成功，反而更胖了，怎么办”。好办，笔者再给您支一招儿，去学唱歌，身宽体胖底气足，可能会产生音箱的效果，特别适合唱美声。请看下一回，统计与音乐的交融，科学与艺术的平均。
省部重点实验室
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2019107 jietielvname_gl0%
关注： |粉丝：
新手级：&新兵
第五回统计与音乐的交融科学与艺术的平均　　　音乐是人类灵魂从计数中感受到而没有意识到这是计数的那种快乐。　　　 ――莱布尼兹　　　声音是由物体的振动产生的，不论是音乐，还是噪声；不论是嘹亮悦耳，富有穿透力的抒情男高音，还是摇头晃脑，五音不太全的通俗女杂音儿，都是从振动源，如嗓子、胸腔等，在三维空间上向外行进。当这些振动到达我们的耳膜时，耳膜的振动就把信息传提到我们的脑中，于是造成了听觉。通俗地讲，音乐就是高于20赫兹，我们的耳朵能感受到的那种美好的动静儿。　　　为什么音乐有高音和低音呢，一般来讲，这和发声体的振动频率有关。如何描述音乐中声音的高度呢，最开始用的是由七个阿拉伯数字组成的简谱，后来发展成由小蛤蟆骨朵组成的五线谱。简谱是一位法国修道士苏埃蒂于1665年首先使用的。上世纪初我国留学生沈心工、李叔同等从日本引入我国的。　　　七个阿拉伯数字加上休止符、节拍等音乐符号，进行各种排列组合便形成了乐谱。十个阿拉伯数字加上各种数学符号便可组成数学和统计学的研究内容。但音乐与统计学不仅仅是形似。若干世纪以来，音乐与数学、统计学一直被联系在一起。所不同的事，从理论上讲十个音符比七个音符能组合出更丰富的乐章。　　　声乐的奠基人、德国物理学家亥姆霍兹说：“音调、响度和音色是音乐的三个主观量。”关于音乐这三大要素的研究与统计学有着不解之缘。　　　音调与频率有密切的关系，但他们又不是按严格的比例对应的。早在古希腊、毕达哥拉斯学派就发现，频率每提高一倍，音调又回到同一个调，但提高了八度，略有偏低，还要把频率再提高一点，以适应人的听觉。同理，低音部分则听感偏高，又需要将频率调低一点。　　　两个相差八度的音之间可再划分若干个音，它们按顺序排列起来形成音阶。有七个音的叫七声音阶，有十二个音的叫半音阶，还有五个音的叫五声音阶。五声音阶比七声音阶少了4和7两个半音。五声音阶现已不常用，它在我国公元前21世纪就产生了。所以现在形容一个人唱歌音不准时，常称他五音不全。　　　从一个音出发，如何生出音阶中的各个音，称为“生律方法”。“生律方法”有多种，不同的“生律方法”成为不同的“律制”。用不同的“律制”构成音阶，便形成不同的“音律”。“音律”中的每个音称为“律”。常用的“音律”有十二平均律，五度相生律和纯律。钢琴的键盘就是按十二平均律的原理制作的。五度相生律现已不多见，有时在弦乐独奏时还能用到。纯律主要用于无伴奏合唱。　　　在不同“律制”中，两个音之间的距离称为音程。由于音调与频率有大体上对应的比例关系，因而，音程可以用频率比来表示。不同的“生律方法”就是用不同的方法确定频率比。确定频率比要用到统计技术。古希腊，人们就发现可以把音乐归结为数与数之间的比例关系。他们发现弦所发出的声音取决于弦的长度，两根绷得一样紧的弦，若一根是另一根的两倍，就会产生谐音，即两个音相差八度。如果两根弦长的比是3∶2，则发出另一种谐音，两个音相差五度，等等。也就是说，产生每一种谐音的多根弦的长度都成整数比。因而，他们提出了音乐的基本原理是数量比的原理。音乐的和谐，如多声部合唱等各种不同的音调按一定数量上的比例所组成。在此基础上，后人研究并提出了美的比例关系。设有两个正整数p、q，其算术平均值A=(q+p)/2，几何平均值G=√pq，调和平均数H=2pq/(p+q)，他们之间在音乐中的关系为：A：G=G：H，p：A=H：q，前者被称为完全比例，后者被称为音乐比例。　　　中国是崇尚礼乐的国家，历朝历代对乐律的研究久盛不衰，而且自觉或不自觉地讲乐律研究与数量研究联系在一起。远古时代，人们创造出一种像排箫的编管乐器，不同长度的管发出不同的音，其外形与直方图非常接近。这种乐器最初能奏出含有三个音组成的五声音阶。到了商代，在一个近似的八度中确定十二个律，并在十二个律中选取五个或七个音组成的音阶体制才确定下来。到了春秋时期，经过计算，我国创造了一种“三分损益法”的生律方法，使音乐变得更加感人悦耳。　　　但是，在这种律制中，任意两律制间的距离或大或小，例如，以黄种为基音，则比它高八度的清黄钟的音只能约略的比基音高一倍，总存在着一个音差。由于音差的存在，在转调时就比较困难。按这种律制制造的乐器只能奏出某种调式，如需转调就要换乐器，很麻烦。为了消除音差，使乐器便于转调，古代的中外音乐家都没有什么办法。1584年，我国明代科学家、算学家朱载衷谄洹堵裳滤怠分校岢隽耸骄傻募扑惴椒ǎ沤饩隽苏飧瞿烟狻　　　十二平均律运用的统计学中几何平均的思想，首先假定高低八度之间的十二音，每相邻两个音的频率比基本相等，设这十二个音的频率依次为a0 ，a1……a12, 朱载址⑾炙腔旧瞎钩梢桓龅缺仁校缤妓荆　　　公比q=ai+1/ai　　　a12　　　a0　　　a11　　　a2　　　a3& & 　　　a4　　　a5　　　a8　　　a7　　　a6　　　a1　　　a9　　　a10　　　1& & & & 2& & & & 3& &
4& & & & 5& & & &
6& & & & & 7& &
i　　　& 　　　 (i=1，2，12)。朱载炙愕q=122。事实上，这时　　　a12=a0q12=a0(122)12=2a0　　　或者，设第i个音的弦长为Ti，则　　　Ti/Ti+1=1/q(i=1，3……，12)　　　T12=T0(1/q)12=T0(1/122)12=T0/2　　　即a12的弦长为a0的弦长的1/2。　　　十二平均律解决了音差的问题，使转调变得非常方便。　　　声音使物体振动的频率造成的，因而十二平均律平均的对象是比率。对比率进行平均最适合的方法是几何平均，如平均利率，平均速度都要用几何平均法，现在开来这已是统计学的一个常识，但在1500年前，我国的算学家已经在音律的研究中能正确使用这种方法，仍令笔者惊讶。　　　18世纪以后，随着数学、统计学的发展，除了制定音律用到数学和统计学得知识以外，存在于音乐中的数量规律的到了更深刻的认识。瑞士数学家、物理学家、最大概似原则的最初提出者，丹尼尔?贝努里，1739年用概率技术进行数学的讨论并用于空气运动发生的乐器研究，在对弦乐器的研究中得出了二阶常微方程。而后来他又与大数学家欧拉等人对各种管乐器进行研究，设计了多变量的、高阶的偏微分方程。　　　对音调、音量（响度）和音色三大音乐要素进行全面考察和研究，19世纪法国大数学家傅立叶做出了辉煌贡献。他证明了所有的乐音，包括器乐和声乐，都能用曲线来描述。音调与曲线的频率有关，音量与曲线的振幅有关，音色与周期函数的形状有关。由于管弦乐器的管长或弦长与频率有对应关系，频率的变化则会呈现出某种曲线。例如，平台钢琴的键的外形轮廓呈现出指数曲线形状，而风琴的管呈现的是地道的直方图和近似的正态分布。　　　随着计算机进入音乐世界，音乐、数学、统计学的融合达到了空前的完美。许多乐器的设计和制作、作曲、歌手的包装等，大都使用统计技术将他们产生的实际声音用图像显示出来，有点像医学中的心电图等。而后，再与用数学描述的理论的或理想的声音图像进行对比，最后，尽可能消除偏差，以达到更接近理论值的艺术效果。严谨的统计不仅融入了浪漫的音乐，逻辑思维的统计已融入了形象思维的文字。请看下一回：文学巨作《红楼梦》我给雪芹改文章。
省部重点实验室
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2019107 jietielvname_gl0%
关注： |粉丝：
新手级：&新兵
第六回文学巨作《红楼梦》我给雪芹改文章　　　开篇不谈《红楼梦》，读尽诗书也枉然，曹公若懂概率论，不让马尔可夫链。　　　――国际红学大会未入选论文　　　俄国著名数学家马尔可夫（），在对俄语字母序列的研究中，提出了马尔可夫随机过程，后来扩展成统计学的一个分支，对现代统计学的发展产生了深刻影响。语言结构中所蕴藏着的统计规律，成了马尔可夫创造性思想的源泉。作为人类语言和文学发展的新方向，马尔可夫的思想和工作在统计学与语言文学的结合上具有开创意义。　　　而后，到了20世纪中期，文献计量学、树立语言学、计算风格学相继诞生。统计学进入了一个全新的领域。我国学者也开始涉足这方面的研究。　　　本文作者之一，袁卫教授1989年在其专著《统计推断思想》一书中，给我们讲述和分析了曹雪芹一个鲜为人知的故事。　　　在《红楼梦》第六十三回“寿怡红群芳开夜宴死金丹独艳理亲丧”中宝玉过生日，晚上请来了林黛玉、史湘云、薛宝钗、李纨、探春、薛宝琴等在怡红院玩骰子抽签的游戏。大家围成一圈，按照摇出骰子的点数数到谁，谁就从签筒中抽出一签，按照签上要求或罚作诗，或罚喝酒。按照电视连续剧《红楼梦》编剧周雷的考证。　　　其位顺序见图1：　　　开始时，由晴雯第一个摇装有四个骰子的罐儿。摇毕一看，是为5点，即3个1点和1个2点。然后，由摇骰子本人晴雯算起，按逆时针方向数至第5人是宝钗。由宝钗抽签、再摇、再数……依次类推。见表1：　　　　　　图1怡红院群芳开夜宴座位顺序　　　　　　李纨& & & &
宝钗　　　探春2　　　宝琴3　　　香菱4　　　黛玉7　　　湘云8　　　宝玉9　　　袭& 芳& 碧& 四& 春& 秋& 麝晴　　　人& 官& 痕& 儿& 燕& 纹& 月雯　　　10& 11& 12& 13& 14& 15& 16& 1　　　6& & & & &
5& 　　　　　　表1大观园群芳掷骰子顺序、点数表　　　摇骰次数& & & & 　　　传递顺序& & & & 　　　点数　　　1& & & & 　　　晴雯――宝钗& & & & 　　　5　　　2& & & & 　　　宝钗――探春& & & & 　　　16　　　3& & & & 　　　探春――李纨& & & & 　　　19　　　4& & & & 　　　黛玉――湘云& & & & 　　　18　　　5& & & & 　　　湘云――麝月& & & & 　　　9　　　6& & & & 　　　麝月――香菱& & & & 　　　19　　　7& & & & 　　　香菱――黛玉& & & & 　　　6　　　8& & & & 　　　黛玉――袭人& & & & 　　　20　　　我们感兴趣的是摇四颗骰子出现的点数分布，设这四颗骰子均为正常的骰子，则其分布率如表2所示：　　　　　　表2掷四颗骰子点数的分布律　　　点数（Ai）& & & & 　　　理论次数& & & & 　　　概率P（Ai）& & & & 　　　实际次数　　　4& & & & 　　　1& & & & 　　　0.0008& & & & 　　　　　　5& & & & 　　　4& & & & 　　　0.0031& & & & 　　　1　　　6& & & & 　　　10& & & & 　　　0.0077& & & & 　　　1　　　7& & & & 　　　20& & & & 　　　0.0155& & & & 　　　　　　8& & & & 　　　35& & & & 　　　0.0270& & & & 　　　　　　9& & & & 　　　56& & & & 　　　0.0430& & & & 　　　　　　10& & & & 　　　80& & & & 　　　0.0617& & & & 　　　　　　11& & & & 　　　104& & & & 　　　0.0803& & & & 　　　　　　12& & & & 　　　125& & & & 　　　0.0965& & & & 　　　　　　13& & & & 　　　140& & & & 　　　0.1080& & & & 　　　　　　14& & & & 　　　146& & & & 　　　0.1127& & & & 　　　　　　15& & & & 　　　140& & & & 　　　0.1080& & & & 　　　　　　16& & & & 　　　125& & & & 　　　0.0965& & & & 　　　1　　　17& & & & 　　　104& & & & 　　　0.0803& & & & 　　　　　　18& & & & 　　　80& & & & 　　　0.0617& & & & 　　　1　　　19& & & & 　　　56& & & & 　　　0.0430& & & & 　　　2　　　20& & & & 　　　35& & & & 　　　0.0270& & & & 　　　1　　　21& & & & 　　　20& & & & 　　　0.0155& & & & 　　　　　　22& & & & 　　　10& & & & 　　　0.0077& & & & 　　　　　　23& & & & 　　　4& & & & 　　　0.0031& & & & 　　　　　　24& & & & 　　　1& & & & 　　　0.0008& & & & 　　　　　　合计& & & & 　　　1296& & & & 　　　0.9999& & & & 　　　8　　　我们看到，晴雯、宝钗等共摇了八次，竟然有六次结果是小于百分之五（0.05）的小概率是事件。特别是晴雯和香菱分别摇出了概率为.7的5点和6点。这种小概率时间对于单独的一次来说，是不可能发生的。对于总共只有八次的情况，出现的概率应该说是很小的。那么是否应怀疑所摇的骰子中有假呢?这个可能性也应该排除，因为曹雪芹书中并未作此交待，况且宝玉他们仅仅是摇骰子做游戏而并非赌博，并无作假的必要。那么出现这种小概率事件应作何解释？依笔者推测，曹雪芹在写到这一回事，事先确定了摇骰子的几位人物，并为他们设计了签子及诗句，以作为此人命运的写照和伏笔。例如轮到探春摇之前，她抽到签子上写道：《瑶池仙品》诗云：日边红杏倚云栽。注云：得此签者必得贵婿，大家恭贺一杯，再同饮一杯。这些话暗示着她后来远嫁之事。因而，我们可以推测曹雪芹写这回时是先确定了每一轮的人选后，再按照座次人物的顺序人为地确定摇出的点数。如果曹雪芹有一些概率分布的知识，他就会合理安排人物的顺序而给出合理的点数，即不使这样的小概率事件发生。由此我们的结论就是：曹雪芹不了解概率分布，不太懂摇骰子中的概率理论。我们的这一理论一方面是根据统计逻辑推理，另一方面也考虑到概率论发展历史。　　　我们知道，曹雪芹是18世纪的人。他生于康熙年间，卒于康熙盛世（1719？-1763）。当时，由于赌博而兴起的概率论研究在西方也才起步不久。17世纪末至18世纪初，瑞士数学家J?贝努里写出一本重要的概率论著作《推测法》，提出了或然性原理和贝努里大数定律。他的这本书是在他1705年死后，由他的侄子N?贝努里于1713年整理出版的。继贝努里之后，法国数学家德?莫依弗尔进一步研究了概率论的问题，由二项式（p+q）n推出了正态分布曲线，这是1733年的事情。曹雪芹在世的年代，还无记载说明中国当时已进行了概率研究。而我们所知道的是，在19世纪末至20世纪初，概率统计理论才从欧洲经日本传入我国。这样，我们又从史实上证明了曹雪芹在当时没有具备掌握概率分布的客观条件，故我们在前边的推测和结论应该说是有根据的。　　　该例中由于实际摇骰子的次数（8次）太少，因而无法向孟德尔豌豆试验那样进行拟合优度X2检验。但统计推理逻辑告诉我们，小概率时间对大量实验观察来讲，出现的次数是极少的，对个别事件来说是不可能发生的，我们就有理由对推理的前提质疑。我们这一推理的模式或者思想就是：　　　A包含B　　　B假/A极不可靠　　　其中B代表实际摇了八次的样本，A表示四颗骰子点数的分布率，或者摇骰子的随机试验。B假表示小概率事件不可能出现，那么由B假推出A极不可靠，即表明摇骰子的实验不是随机的。换句话说，上述事件是曹雪芹主观想象的。　　　这事儿不能怨曹雪芹，虽然曹雪芹如果一边写《红楼梦》，一边研究概率论，其成果可能比马尔可夫早问世一百多年，但中国的知识分子自命清高，认为赌博是有辱斯文的事儿，不可能向西方知识分子那样从中研究并创立什么概率论。　　　那么，只好借助于赌徒修改《红楼梦》了，《红楼梦》第六十三回可作如下修改：贾环素日原本恨宝玉，近日又见他与众姐妹吃酒作乐，心中越发嫉妒，无奈，请教吃、喝、嫖、赌都占全的薛蟠，薛蟠让贾环买通了林之孝家的，在骰子上作了些手脚，原本是为喝醉他几个人，使夜宴败兴而散……笔者的这些修改，文采远不及曹雪芹，甚至不如高鹗，但基本符合概率统计原理，使其不出现逻辑的错误。　　　统计与文学的这种结合，已由个别上升到了一般。请看下一回：人文的基因艺术的巡礼。　　　参考文献　　　[1]《统计推断思想》袁卫著 1990年中国统计出版社　　　[2]《红楼梦》第六十三回曹雪芹著 1982年人民文学出版社　　　[3]《世界统计名人传记》龚监尧著 2000年中国统计出版社
省部重点实验室
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2019107 jietielvname_gl0%
关注： |粉丝：
新手级：&新兵
第七回人文的基因艺术的巡礼　　　我们所能经历的最美好的事情是神秘事物，它是所有真正艺术和科学的源泉。　　　 ――阿尔伯特?爱因斯坦　　　& 古今中外，人文社会科学没有一个非常明确的范围，但大体上语言、文学、艺术、哲学、逻辑、历史、政治、经济、管理等可算为人文社会科学。其中，哲学、逻辑、政治、经济、管理等学科与统计学的关系之密切是众所周知的。本回仅粗略谈谈统计学与语言文学之间的联系。　　　在一些人眼中，统计学与语言文学似乎在人类文明的两极。一个是理性思维，一个是形象思维，互不搭界。其实，这是一种偏见，统计学与语言文学之间，不论从历史与现实考察，还是从形式与内容来看，都有着深刻的关联。　　　数据是最简练的语言，统计学和数学中的公理、定义、定理是最无歧义的语法。因而，统计是语言文学所能达到的最高境界。早在19世纪中期，就有人提出用数量分析的方法研究语言现象了。1847年，俄国数学家布涅雅可夫斯基()提出了用概率论进行语法、词源和语言历史的比较研究。1894年，瑞士语言学家索绪尔（）指出：“在基本性质方面，语言中的量和量之间的关系可以用数学公式有规律地表达出来。”在上篇故事中，我们也曾提到，俄国数学家马尔可夫（）在对俄语言字母序列的研究中，提出了马尔可夫随机过程理论，促进了统计学与语言文学研究的结合。　　　随着科学技术、商业贸易和外交活动的发展，科技文献浩如烟海，国际间贸易和交流日益频繁，人类的语言障碍就显得越来越突出了。人们从事文献检索、信息加工、资料翻译的工作量日益加大。计算机的发明和应用，解决了这些繁琐而沉重的工作。为了能让计算机进行机器识别、自动检索、语言翻译等信息处理，必须对语言学中各种概念用定量技术进行严格的分析，建立语言的统计模型，采用数据分析的语言描述语言现象。同时，计算自身的发展，如汉字系统、人机对话、通讯技术中的信息数据化等，也提出了用统计学研究语言文学的需求。另一方面，19世纪以来，多元统计、非参数统计、数理逻辑、定型数据分析、模糊统计等众多统计学分支的兴起，也为用统计方法研究语言文学提供了技术支持。　　　关于统计学与语言文学的联系，有很多有趣的故事，舍去一些铺垫转承等一些虚的东西，捡一些干货来说，统计学与语言文学的联系主要体现在以下几个方面：　　　第一，语言具有随机性在文学作评中，语言符号的出现是不确定的。例如，老舍先生的《骆驼祥子》一书的总字数为107360字，但不同的汉字数仅为2413个。其中，“的”字出现的频率最高，为4.12%，其次是“他”字，频率为2.40%，这与一般文字材料高频汉字的排序不同。“的”字的高频出现，反映了口语化的老北京方言，“他”字的高频，表明老舍小说中用的是第三人称。这都说明了老舍作品的特点。此外，“祥”字出现778次，“虎”字出现220次，“妞”字出现174次，它们出现频率偏高与作品内容有关。　　　语言虽具有随机性，但语言符号出现的分布是有规律的。老舍先生用2413个汉字便写出了一部传世之作。那么，一个人学习一种语言，需要掌握多少词汇或字，才能顺利进行阅读和交谈呢？哪些是常用的基本词汇，哪些是一般词汇，过去是依靠语言学家的经验主观确定的，现在多采用概率统计的方法得出。汉字是一个十分庞大的字符集，《康熙字典》收字超过56000个，要从众多汉字中挑选出最常用的汉字，是一项工作量巨大的工程。　　　我国最早用字频统计选取基本词汇的是著名教育家陈鹤琴，1928年他编写了《语体文应用字汇》。1946年，四处省教育科学院根据陈鹤琴的《语体文应用字汇》和其它文献资料，编写了《常用字选》，选出了最常用汉字2000个。1952年，教育部公布了一个《常用字表》，收集常用汉字2000个．1964年经过精简分开，实收常用汉字减至1968个。1985年，我国完成了“现代汉语词频统计”的课题研究，编制出13种字频统计表。1986年，国家语言文字工作委员会根据对大量的文字资料的统计处理，先后编制了《现代汉语常用字表》和《现代汉语通用字表》，分别收字3500个和7000个。通过检验和实际使用，证明了这两个表的收字是合理适用的。　　　第二，语言有规律性语言符号的出现虽是随机的，但在大量使用时可以呈现出统计规律性。这种规律性不仅表现在此字频显示的词汇式汉字出现的规律，还能描述出作家的写作风格。每位作者都有自己独特的风格，文如其人，除了作品的内容以外，遣词造句的习惯等语言特点也形成作品风格的重点特征。这种风格在数量上的表现就每位作者不同作品语言特点的规律性和不同作者语言特点的差异性。　　　在18世纪末期，一些期刊上署名为Federalist的12篇文章的真正作者是谁，曾引起长期争议。有人认为文章的作者是英国政治家哈密尔顿，有人认为是英国第四任总统麦迪逊。1964年，两位英国统计学家用统计方法开始对其进行考证。开始，用“平均句长”对哈密尔顿和麦迪逊的其他文章进行分析，结果是两位作者的“平均句长”几乎相同，无显著差异。后来，对两位作者的“用词习惯”进行统计分析，发现这两位作者在某些词的使用上有明显差异。哈密尔顿在他的18篇文章中，有14篇用了“enough”这个词，麦迪逊在其14篇文章中根本不用“enough”；哈密尔顿喜欢用“while”，而麦迪逊总是用“whilst”；哈密尔顿喜欢用“upon”，而麦迪逊则很少用。两位统计学家将哈密尔顿和麦迪逊的写作习惯和风格与署名为Federalist的文章进行对比合同及检验，最后确定麦迪逊是真正的作者，从而了解了长期的争论。　　　1928年，有人提出《静静的顿河》的作者不是肖洛霍夫，而是一位哥萨克作家克留柯夫。1974年，一位匿名作家在巴黎出版了一本书，断言克留柯夫是《静静的顿河》的真正作者，肖洛霍夫则是一个剽窃者。　　　为弄清事实真相，一些学者用统计方法进行了考证。具体做法是将《静静的顿河》同肖洛霍夫和克留柯夫两个人没有疑问的作品用计算机量化，采集数据，加以分析，研究结果表明，《静静的顿河》与肖洛霍夫的作品非常接近，与克留柯夫的作品则相距甚远，有充分把握程度推断出《静静的顿河》是肖洛霍夫所作，从而了解了长达数十年的文坛公案。　　　第三，语言具有冗余性语言符号用语法连接起来相互制约，使人们可以根据符号的关系判断有关语言符号的性能和内容。粗略地讲，所谓冗余性就是语言的简练程度。用语言组成的文章和口语越简练、越开概括、越原则，其冗余性越低，语言越精密、越细微、越具体，其冗余性越高。冗余性具有两面性。冗余性越低，文章洗炼，抗错能力强，但不便于识别和分解，传递的信息比较模糊。冗余性高，文章显得有点罗嗦，抗错能力低，但便于识别和理解，冗余的信息比较丰富。　　　例如，“将要下雨。”这句话冗余性比较低，文字简练、开阔，并且所表达的内容100%的正确，因为它没有交代将要下雨的时间和地点，任何时间和地点下雨都能证明这句话的正确性。但这句话几乎没有什么有用的信息。　　　“明天上午10点，北京市朝阳区朝外大街要下雨”。这句话冗余性比较高，文字精细、内容具体、但抗错能力很差，因为所交待的下雨时间和地点太具体，区间范围太小，所以犯错误的概率相对较大。但这句话却给我们提供了有用的信息，为人们出行、交通管理、建筑工的施工、甚至防洪提供了防患于未然的资讯。　　　为什么领导讲话很少出错，因为他们的讲话一般都很概括、很原则，没有废话，冗余性很低，虽没有提供有用的信息，但抗错能力很强。事后出现的很多政绩都装到讲话的作用中去。但领导的讲话不易识别和分解，所以我们要全面而深刻的理解领导讲话精神。　　　语言的冗余性，可以用统计估计理论，检验理论和信息论方法进行分析和研究。　　　此外，语言还有离散性、递归性、非单元性、模糊性等与统计学和数学相互联系的显著特性。这些特性可以使统计学与语言文学有机地结合起来。　　　此篇故事是否可以应验那句话，现在已经很难找到一个不使用统计的领域了。请看下一回：诗词中的格律平仄中的统计。（未完待续）　　　作者简介　　　袁卫，男，50岁多一点，中国人民大学副校长，教授，博士生导师。中国最著名的统计学家之一（具体排序不详）。　　　纪宏，男，50岁欠一点，首都经济贸易大学教授，博士生导师。中国最不著名的十大统计学家之二（之首为湖南大学许鹏教授，……，之九为上海财经大学张尧庭教授，之十为天津财经学院红叶教授肖老。由于“最不著名”属于逆指标，因而排序越靠后，越接近于“著名”）。
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
ID：zsj201204
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2595817 jietielvname_zsj0%
关注： |粉丝：
新手级：&新兵
怎么没有图呢？
alphastatist
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
ID：alphastatist
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：100%
关注： |粉丝：
新手级：&新兵
此文可以激起大众对统计了解的兴趣,国内这方面的资源和教育不够重视.国外有人专门从事相关研究.今天大致浏览了下,可能是为了引起读者的兴趣,对一些内容进行了添油加醋的发挥.
该帖子作者被版主
透明加 2 积分，
2经验，加分理由：参与
15:51:33 Last edit by alphastatist
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
ID：zsj201204
行业：石油行业―校长油行业―校长油行..
积分：<span class="gray0 userintegral_升级还需100积分
声望：<span class="gray0 userrenown_升级还需100声望
注册时间：
最后登录时间：<span class="gray0 userlastl_00-00-00
结帖率：<div class="loading jietielv_2595817 jietielvname_zsj0%
关注： |粉丝：
新手级：&新兵
楼主下次发一个楼层呢吧~}

叫阿莫西中心