对于一下逻辑回归,决策树 改进,神经网络.在过去15年中这些技术做了哪些大的改进

大数据常见面试题
大数据常见面试题大数据常见题随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家的时候会常会的几个问题,供各位同行参考。1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键指标、强壮性、模型按合度、实验设计、2/8原则?4、什么是:协同过滤、n-grams, map reduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?6、如何设计一个解决抄袭的方案?7、如何检验一个个人支付账户都多个人使用?8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?12、你最喜欢的编程语言是什么?为什么?13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。14、SAS, R, Python, Perl语言的区别是?15、什么是大数据的诅咒?16、你参与过数据库与数据模型的设计吗?17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?18、你喜欢TD数据库的什么特征?19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出?21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价?26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)28、什么是星型模型?什么是查询表?29、你可以使用excel建立逻辑回归模型吗?如何可以,说明一下建立过程?30、在SQL, Perl, C++, Python等编程过程上,待为了提升速度优化过相关代码或者算法吗?如何及提升多少?31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?32、定义:QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?34、你认为叶数小于50的决策树是否比大的好?为什么?35、保险精算是否是统计学的一个分支?如果不是,为何如何?36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?42、你如何建议一个非参数置信区间?43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?44、什么是归因分析?如何识别归因与相关系数?举例。45、如何定义与衡量一个指标的预测能力?46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?47、如何创建一个关键字分类?48、什么是僵尸网络?如何进行检测?49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?51、可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?52、什么是概念验证?53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。54、你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护?55、什么是cron任务?56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?57、是假阳性好还是假阴性好?58、你熟悉价格优化、价格弹性、存货、竞争智能吗?分别给案例。59、Zillow’s算法是如何工作的?60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?61、你如何创建一个新的匿名数字帐户?62、你有没有想过自己创业?是什么样的想法?63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?65、哪位数据科学有你最佩服?从哪开始?66、你是怎么开始对数据科学感兴趣的?67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?68、什么是推荐引擎?它是如何工作的?69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?70、你认为怎么才能成为一个好的数据科学家?71、你认为数据科学家是一个艺术家还是科学家?72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?73、给出一些在数据科学中“最佳实践的案例”。74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。76、你觉得下一个20年最好的5个预测方法是?77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?#2楼大数据面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。或者如下阐述(雪域之鹰):算法思想:分而治之+Hash地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址;4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。典型的Top K算法,还是在这篇文章里头有所阐述,详情请参见:十一、从头到尾彻底解析Hash表&算法。文中,给出的最终算法是:第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、);第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N'*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,...x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。还是典型的TOP K算法,解决方案如下:方案1:顺序读取10个文件,按照hash(query)的结果将query写入到另外10个文件(记为)中。这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。找一台内存在2G左右的机器,依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件(记为)。对这10个文件进行归并排序(内排序与外排序相结合)。方案2:一般query的总量是有限的,只是重复的次数比较多而已,可能对于所有的query,一次性就可以加入到内存了。这样,我们就可以采用trie树/hash_map等直接来统计每个query出现的次数,然后按出现次数做快速/堆/归并排序就可以了。方案3:与方案1类似,但在做完hash,分成多个文件后,可以交给多个文件来处理,采用分布式的架构来处理(比如MapReduce),最后再进行合并。5、 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取hash(url)00,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。这样每个小文件的大约为300M。遍历文件b,采取和a相同的方式将url分别存储到1000小文件(记为b0,b1,...,b999)。这样处理后,所有可能相同的url都在对应的小文件(a0vsb0,a1vsb1,...,a999vsb999)中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。方案2:如果允许有一定的错误率,可以使用Bloom filter,4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit,然后挨个读取另外一个文件的url,检查是否与Bloom filter,如果是,那么该url应该是共同的url(注意会有一定的错误率)。Bloom filter日后会在本BLOG内详细阐述。6、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存2^32 * 2 bit=1 GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。方案2:也可采用与第1题类似的方法,进行划分小文件的方法。然后在小文件中找出不重复的整数,并排序。然后再进行归并,注意去除重复的元素。7、腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?与上第6题类似,我的第一反应时快速排序+二分查找。以下是其它更好的方法:方案1:oo,申请512M的内存,一个bit位代表一个unsigned int值。读入40亿个数,设置相应的bit位,读入要查询的数,查看相应bit位是否为1,为1表示存在,为0表示不存在。dizengrong:方案2:这个问题在《编程珠玑》里有很好的描述,大家可以参考下面的思路,探讨一下:又因为2^32为40亿多,所以给定一个数可能在,也可能不在其中;这里我们把40亿个数中的每一个用32位的二进制来表示假设这40亿个数开始放在一个文件中。然后将这40亿个数分成两类:1.最高位为02.最高位为1并将这两类分别写入到两个文件中,其中一个文件中数的个数&=20亿,而另一个&=20亿(这相当于折半了);与要查找的数的最高位比较并接着进入相应的文件再查找再然后把这个文件为又分成两类:1.次最高位为02.次最高位为1并将这两类分别写入到两个文件中,其中一个文件中数的个数&=10亿,而另一个&=10亿(这相当于折半了);与要查找的数的次最高位比较并接着进入相应的文件再查找。.......以此类推,就可以找到了,而且时间复杂度为O(logn),方案2完。附:这里,再简单介绍下,位图方法:使用位图法判断整形数组是否存在重复判断集合中存在重复是常见编程任务之一,当集合中数据量比较大时我们通常希望少进行几次扫描,这时双重循环法就不可取了。位图法比较适合于这种情况,它的做法是按照集合中最大元素max创建一个长度为max+1的新数组,然后再次扫描原数组,遇到几就给新数组的第几位置上1,如遇到5就给新数组的第六个元素置1,这样下次再遇到5想置位时发现新数组的第六个元素已经是1了,这说明这次的数据肯定和以前的数据存在着重复。这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。它的运算次数最坏的情况为2N。如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。欢迎,有更好的思路,或方法,共同交流。8、怎么在海量数据中找出重复次数最多的一个? 方案1:先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求(具体参考前面的题)。9、上千万或上亿数据(有重复),统计其中出现次数最多的钱N个数据。方案1:上千万或上亿的数据,现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了,可以用第2题提到的堆机制完成。10、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。方案1:这题是考虑时间效率。用trie树统计每个词出现的次数,时间复杂度是O(n*le)(le表示单词的平准长度)。然后是找出出现最频繁的前10个词,可以用堆来实现,前面的题中已经讲到了,时间复杂度是O(n*lg10)。所以总的时间复杂度,是O(n*le)与O(n*lg10)中较大的哪一个。附、100w个数中找出最大的100个数。方案1:在前面的题中,我们已经提到了,用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。方案2:采用快速排序的思想,每次分割之后只考虑比轴大的一部分,知道比轴大的一部分在比100多的时候,采用传统排序算法排序,取前100个。复杂度为O(100w*100)。方案3:采用局部淘汰法。选取前100个元素,并排序,记为序列L。然后一次扫描剩余的元素x,与排好序的100个元素中最小的元素比,如果比这个最小的要大,那么把这个最小的元素删除,并把x利用插入排序的思想,插入到序列L中。依次循环,知道扫描了所有的元素。复杂度为O(100w*100)。
注:查看本文详细信息,请登录安徽人事资料网 站内搜索:大数据常见面试题
看了该文章的人还看了:
1、请你自我介绍一下你自己? 回答提示:一般人回答这个问题过于平常,只说姓名、年龄、爱好、工作经验,这些在简历上都有。其实,企业最希望知道的是求职者能否
1. 护士职业具备的条件? 2. 护士应具备什么素质,你觉得自己做护士有什么优势? 3. 护士职业道德规范? 4. 如果你当了护士,应该怎么做? 5. 你为什么要当护士
1、 作为一名医务工作者,你认为你有哪些优势和不足? 一.我是一名医务工作者,从事医务工作,能够接触各式各样的人,经常处理一些紧急事件,这就使我具有较强的
编辑提醒:请注意查看“大数据常见面试题”一文是否有分页内容。原文地址
相关阅读:
注:大数据常见面试题一文由免费提供,来源于网络。本文著作权归原作者所有,请在转载引用时保留。否则因《》一文引起的法律纠纷请自负。决策树分析方法的历史与现状
决策树分析方法的历史与现状
09-04-23 &匿名提问
决策树法(decision tree—based method)  决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
请登录后再发表评论!
数据挖掘及其应用概述王国伟1、数据挖掘概论1.1.1 数据挖掘的概念与步骤数据挖掘也译作数据开采,它是根据某一确定的目标,从大量的、不完全的、有噪音的数据中获得隐含的(未知的)、有价值的、能够被人所理解的模式(或知识)的一个过程。数据挖掘与数据库知识发现即有联系,又有区别。微软研究院的著名专家Fayyad等人曾经给出一个普遍接受的数据库知识发现的观点。他们认为一个完整的数据库知识发现过程应该包括以下各个步骤:数据选取/抽样,数据清理,数据转换,数据挖掘,评价/解释,结果的可视化,并在最后根据获得的知识采取何种行动等。因此,数据挖掘仅仅是数据库知识发现的一个步骤,只不过数据挖掘是最核心的步骤。图1 Fayyad 的九阶段模型1.1.2数据挖掘的研究历史和现状 1 、研究历史 从数据库中发现知识(KDD)一词首次出现在1989年举行的第十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会(见表1),研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。2、 出版物及工具此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威在网上还有许多自由论坛,如DM Email Club等。至于DMKD书籍,可以在任意一家计算机书店找到十多本。目前,世界上比较有影响的典型数据挖掘系统有:SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge DiscoveryWorkbench、DBMiner、Quest等。其中。3、 国内现状与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。1.1.3 数据挖掘的分析方法数据挖掘的目的是发现有意义的知识以便为决策支持等具体业务提供帮助。数据挖掘的分析方法一般包括以下几种:(1)关联分析关联分析的目的是发现数据集中所隐含的若干项目之间的相互关系。比如,超市记录了每次交易的商品清单,通过对顾客购货行为进行关联分析,可以获取各个商品之问在销售上的关联程度。关联分析往往以关联规则的形式表达,并以支持度,置信度等参数来描述关联规则。(2)数据分类数据分类发现数据集中各个对象的一般特征,并按照不同的分类模型将这些对象划分到不同的类。对数据进行分类时,假定数据集中的每个对象事先已知属于某一个类,而分类则是生成这些类的描述。因此,分类分析需要先将各个对象加上标记以区分出所属的类。数据分类方法或者导出区分所有类的规则集合,或者仅仅获得某一个类区别于其它类的区分规则集合,两者的侧重点不同。(3)聚类分析聚类是一个过程,它将数据集中的对象进行分组,并生成相似对象的类聚类分析是无导师的学习过程。聚类分析目的是将大量数据的对象集合分成若干个有意义的类,每个类内部的对象具有较高的相似程度,而不同类的对象之间具有较小的相似程度。(4)序列模式分析序列模式分析侧重于分析数据之间的前后因果关系。比如对于超市,序列模式分析可用于发现顾客购货模式的先后次序,如先购买商品X再购买商品Y。对于股票市场,序列模式分析可用于发现股票价格变化的先后关系,如股票A上涨一定幅度后,股票B也将上涨一定幅度。可见,序列模式分析与关联分析不同,后者仅考虑数据间的联系,而并不关心先后顺序。在具体的决策支持等具体业务过程中,往往需要综合应用上面的各种数据挖掘的分析方法,以便获得更好的效果。1.1. 4数据挖掘的方法与技术数据挖掘的方法包括统计分析方法和人工智能方法。实际数据挖掘往往需要综合利用这些方法,并且需要可视化技术等加以辅助。人工智能方法在数据挖掘领域中应用最为广泛的是机器学习方法。 数据挖掘经常用到的方法和技术包括以下几种:(1) 关联规则挖掘技术关联规则挖掘的目的是发现数据之问的关联特性。Apriori和DHP是关联规则的经典算法。在许多应用中,往往希望发现数据之上较高层次的概念的关联性,因此也出现了泛化的和多层次的关联规则挖掘方法。关联规则挖掘技术是比较成熟的数据挖掘技术。关联规则挖掘技术主要应用于数据挖掘中的关联分析。(2) 人工神经网络人工神经网络方法模拟人脑的神经元结构,以MP模型和Hebb学习规则为基础。神经网络主要有三种模型:前馈式网络,反馈式网络,以及自组织网络。人工神经网络是典型的机器学习方法。人工神经网络广泛应用于预测、模式识别、优化计算等领域,也可用于数据挖掘中的聚类分析。(3) 决策树方法决策树方法在机器学习领域曾经得到广泛而深入的研究。最早的决策树算法是Quiulan提出的ID3算法。决策树方法以数据集中各字段的信息增益为依据,以信息增益最大的字段作为决策树的根结点;并依次对各个子树迸行类似的操作,直到确定决策树的所有结点。在ID3算法提出之后,决策树方法出现了很多改进型的算法,如ID4,ID5,C4.5等。决策树方法可用于数据挖掘中的数据分类。(4) 基于模式的相似搜索技术基于模式的相似搜索技术主要用于从时态数据库或空间时态数据库中搜索相似的模式。这类技术需要事先定义相似的测度,一般可用欧拉距离和相关性来衡量模式的相似程度。(5) 遗传算法遗传算法模拟生命的进化过程。它先将搜索结构编码为字符串形式,每个字符串称为个体,然后通过遗传算子(如复制、杂交、变异以及反转等)对一组字符串进行循环操作,来达到进化的目的。遗传算法己经在优化计算、机器学习等领域得到广泛的应用。(6) 粗糙集方法(rough set)粗集理论是近年来兴起的研究不精确、不确定性知识的表达、学习、归纳等方法。粗集方法是模拟人类的抽象逻辑思维,它以各种更接近人们对事物的描述方式的定性、定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的,它通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识是有用的。进行简化知识表达空间是基于不可分辨关系的思想和知识简化的方法,从数据中推理逻辑规则作为知识系统的模型。它是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现知识和分辨系统的某些特点、过程和对象。2、运用KDD进行故障诊断的基本思想随着数据库技术的迅速发展及大型关键设备自动化程度的提高,各工厂对重要设备都实施了实时监控,形成大型的数据库或数据仓库以存储反映机组状态的各种数据及参数。这些数据和参数中包含了机组运行状态的各种特征,而数据和参数本身往往是杂乱无章的,其特征并不明显、不直观。而数据挖掘技术就是从大量不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识。利用数据挖掘进行故障诊断,就是根据该机组的历史运行记录,对其可能的运行状态进行分类并对其趋势进行预测。故障诊断的本质是模式识别,对机器故障进行诊断的过程,其实也就是模式获取及模式匹配的过程。而知识获取是智能诊断乃至人工智能发展的瓶颈,考虑数据挖掘技术近几年来的迅猛发展及它在知识获取方面的独特优势,将数据挖掘技术应用干故障诊断也不失为一种很好的方法。在各种机械设备中,旋转机械比较典型,主要根据旋转转子的一些故障特征进行分析和诊断。因此构造了基于一些常见故障的样本数据集模块,利用数据挖掘中基于规则推导的方法来形成故障规则库,在形成规则库后,可以依据其中的规则判别新来数据样本的故障类的归属问题。图2 基于数据挖掘方法的故障诊断示图对机械故障诊断而言,首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正常工作时的数据,更要有机器出现故障时的数据,并且应已获知故障的类别。这样,由己知故障类别、故障发生时的各运行参数、历史记录组成的数据库或数据仓库便构成了数据挖掘的训练/学习样本库。数据挖掘的任务就是从这些海量的杂乱无章的样本库中找出隐藏在其中的内在规律,提取出不同故障的各自特征。故障模式类的划分,通常可借助概率统计这一数学工具作为一种新的方法,数据挖掘采用单一的分类方法未必会取得良好的效果,很多情况下是几种不同的方法结合使用。旋转转子的特征属性一般由其时域特征、频域特征(低频与高频成分)及一些敏感参数如相位、轴心轨迹、振动方向、进动方向、临界转速等组成。在大数据量背景下导致某一故障发生时的特征属性值及属性之间的关系可能会有某种规律存在,这与数据挖掘技术中的规则相吻合。数据挖掘技术中的关联规则反映一个事件和其它事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其它属性值进行预测。为A =& B的形式。用支持度、置信度、最小支持度、最小置信度四个参数可确定一条规则.利用数据挖掘方法,找到这样的规则,根据规则将很容易地将未知故障数据归类。3、数据挖掘的应用数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。因而其应用非常广泛,只要该企业有分析价值与需求的数据库,皆可利用Mining工具进行有目的的发掘分析。 1、科学应用从科学研究方法学的研究角度看,科学研究可分为三类:理论科学、实验科学和计算科学。计算科学是现代科学的一个重要标志。计算科学的工作者主要和数据打交道,每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分析技术等,数据量非常的大,传统的数学分析工具无能为力,因此需要有强大的智能型自动数据分析工具。 在科学应用上一个非常有名的系统是加洲理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具SKICAT。SKICAT使用了决策树方法构造分类器,结果使得能分辨的星体较以前的方法在亮度上要低一个数量级之多,而且新的方法比以往方法的效率要高40倍以上。2、商业应用商业和企业上对KDD的应用需求很大,在这些商业领域:行销、金融、银行、制造和通讯等。商业上的大多数应用针对的是分类预测任务。3、市场行销数据挖掘在行销业中的应用可以分为两类:数据库行销和货篮分析。前者的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客以便向他们推销产品;后者的任务是分析市场销售数据以识别顾客的购买行为模式,从而帮助确定货架的布局排放以促销某些商品。4、金融投资典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测祛(如神经网络和统计回归技术等)。这方面的系统有 Fidelity Stock Selector, LBS Capital Management。前者的任务是使用神经网络模型选择投资,后渣滓则使用了专家系统、神经网络和基因算法技术辅助管理多达6亿美元的有价证券。5、欺诈甄别银行和商业上经常发生诈骗行为,如恶性透支等。这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统,它己被相当数量的零售银行用于探测可疑的信用卡交易;FAIS是一个用于识别和洗钱有关的金融交易系统,它使用的是一般的政府数据表单。 6、零售业应用KDD技术分析售货数据记录,从中发现一些商品之间的关联知识,采取对策以提高销售量。如一家超市利用KDD技术得到买纸尿布的人可能买啤酒的知识后,该超市调整了这两种原来相隔很远的商品的摆放位置,很快吸引了不少下班回家路上帮太太买纸尿布的丈夫成为他们的客户。7、大众传媒广播公司应用KDD技术来预测电视收视率,以便合理安排电视节目的时刻表:信用卡公司自采用KDD技术后,信用卡使用率增加;电话公司凭借KDD技术侦探国际电话的欺诈行为,可以尽快地发现国际电话中的不正常现象。8、工业应用在大中型工业企业,一般都有与大量设备运行相关的数据,现场控制、故障诊断、企业管理更是一个基于知识的决策过程,因而KDD在工业领域中具有极大的用武之地。但是与商业领域的信息相比,工业领域数据具有以下特点:1) 数据信息多样性。工业现场采集的数据,是来自不同的各类设备并采用不同的手段,数据类型也是多种多样的,使得数据格式各不相同。2) 数据的复杂性。工业现场数据的复杂性一方面是由于它的多样性,另一方面是由于数据信息的成分十分复杂。3) 数据质量。在工业现场数据中,处理最多的是传感器数据。传感器测点的位置,传感器工作是否正常,传感器的数据是否代表过程参数的真正状态,都严重影响着现场数据的质量。4) 数据与时间的相关性。工业数据的另一个生要特点是与时间有着密切的相关性,在工业过程中,尤其是过程监控和质量控制中,时间序列是主要的分析对象。5) 工业噪声。与商业领域不同,工业噪声的影响使工业数据处理变得十分困难。因而KDD工业过程中的实际应用要解决的关键问题是数据的整合、时间序列分析、信息融合与集成、背景知识的利用等。4、研究前景和发展方向数据挖掘技术正在快速发展,研究和开发己经走在很前沿,数据挖掘应用面也已经得到了拓展。从应用角度讲,数据挖掘是一种增值服务。早就有人预言,数据挖掘会在若干年内带来几百亿美元的年盈利。但是,目前应用的情况与人们的预期还有一定差距。要真正实现预期的目标,解决研究开发与应用相结合的问题,还面临着巨大的挑战,主要有:·数据挖掘必须能够挖掘多种来源、多种类型、异质的数据;·数据挖掘算法的效率、可伸缩性必须能满足海量数据挖掘的要求, 在有限内存与外存空间的约束下,以最短时间完成挖掘任务;·数据挖掘的价值最终取决于挖掘结果的可用性、确定性与表达能力:·数据挖掘必须保证数据安全与保护隐私权。在数据挖掘研究和开发已取得令人瞩目的进展的同时,许多尚待解决和完善的课题也摆在了研究者面前。涉及数据的问题包括噪声数据、缺失数据、冗余数据、海量数据以及动态数据等。噪声数据的属性值是不精确或错误的,从而会影响抽取的模式的准确性,造成最终结果的不确定性。缺失值现象尤其在关系数据库中经常发生,这种情况给发现、评估和解释模式带来了困难,要求知识发现模型应当具有近似决策能力。而与不完整数据相反,给定的数据集中可能含有冗余的或者不重要的属性或对象,从而增加时间空间开销和结果规则的复杂度。数据库中数据量的迅速增长,是促进数据挖掘技术发展的原因之一,也是数据挖掘技术首先要解决的问题。数据库的基本特点是库中的内容是动态改变的,所以知识发现方法应当具有增量式学习的能力。为了能够有效的从数据库大量的数据中抽取模式知识,数据挖掘算法必须是高效的和可扩展的,相应数据挖掘算法的运行时间是可以预测的并可以接受的。已发现的知识应能准确描述数据库中的内容,并能用于实际领域。数据挖掘系统还应能很好地处理和抑制噪声数据和不希望的数据,所以要研究度量知识质量的方法。数据挖掘应该能够用高水平语言、可视化表示或其它表示方式来描述所挖掘出的知识,以使用户更加容易的理解和应用所挖掘出的知识。虽然大多数数据库是关系型的,但许多实际应用的关系数据库还可能含有复杂的数据类型,如结构数据和复杂数据对象、超文本和多媒体数据。空间和时态数据、事务数据以及历史数据等,因此一个功能很强的数据挖掘系统应能对各种复杂数据类型进行挖掘。鉴于数据类型的差异和不同的数据挖掘目的,针对不同数据挖掘任务应当构造专用的数据挖掘系统。
请登录后再发表评论!
决策树分析法是通过决策树图形展示临床重要结局,明确思路,比较各种备选方案预期结果进行决策的方法。
   决策树分析法通常有6个步骤。
   第一步:明确决策问题,确定备选方案。对要解决的问题应该有清楚的界定,应该列出所有可能的备选方案。
   第二步:绘出决策树图形。决策树用3种不同的符号分别表示决策结、机会结、结局结。决策结用图形符号如方框表示,放在决策树的左端,每个备选方案用从该结引出的]个臂(线条)表示;实施每一个备选方案时都司能发生一系列受机遇控制的机会事件,用图形符号圆圈表示,称为机会结,每一个机会结司以有多个直接结局,例如某种治疗方案有3个结局(治愈、改善、药物毒性致死),则机会结有3个臂。最终结局用图形符号如小三角形表示,称为结局结,总是放在决策树最右端。从左至右机会结的顺序应该依照事件的时间先后关系而定。但不管机会结有多少个结局,从每个机会结引出的结局必须是互相排斥的状态,不能互相包容或交叉。
   第三步:明确各种结局可能出现的概率。可以从文献中类似的病人去查找相关的概率,也可以从临床经验进行推测。所有这些概率都要在决策树上标示出来。在为每一个机会结发出的直接结局臂标记发生概率时,必须注意各概率相加之和必须为1.0。
   第四步:对最终结局用适宜的效用值赋值。效用值是病人对健康状态偏好程度的测量,通常应用0-1的数字表示,一般最好的健康状态为1,死亡为0。有时可以用寿命年、质量调整寿命年表示。
   第五步:计算每一种备远方案的期望值。计算期望值的方法是从&树尖&开始向&树根&的方向进行计算,将每一个机会结所有的结局效用值与其发生概率分别相乘,其总和为该机会结的期望效用值。在每一个决策臂中,各机会结的期望效用值分别与其发生概率相乘,其总和为该决策方案的期望效用值,选择期望值最高的备选方案为决策方案。    第六步:应用敏感性试验对决策分析的结论进行测试。敏感分析的目的是测试决策分析结论的真实性。敏感分析要回答的问题是当概率及结局效用值等在一个合理的范围内变动时,决策分析的结论会不会改变。
请登录后再发表评论!
科研经费管理是近年来人们普遍关注的一个问题。本文从标准成本法的角度探讨如何控制科研课题成本。在文中,笔者提出了科研课题标准成本的概念、计算、差异分析及科研课题成本的事中控制,力图把科研课题成本控制在最低程度,以提高科研经费的使用效益。一、科研课题标准成本的概念标准成本是在正常情况下应该发生的正常成本,是可以预计达到而且应该达到的成本水平。科研课题标准成本是指按课题人数、课题研究条件和研究人员素质,在达到课题预期效果的情况下,所应达到的课题各项费用的标准。标准成本在课题立项时就要制定,且在制定标准成本时应参照以往的各项费用成本资料并充分考虑发展趋势。科研课题的实际成本与标准成本之间的差异反映了课题科研成本控制程度。二、科研课题标准成本的计算(一)课题原材料标准成本的计算。课题原材料成本是直接用于课题研究、生产的材料成本,在制定时必须考虑其标准用量和标准价格两个因素。材料的标准用量指根据科研项目或产品所需要的各种原材料数量;标准价格指根据科研项目或产品所需材料按供应单位的价目表确定的单价,包括购价和运杂费等。计算公式如下:“课题原材料标准成本=各种原材料的标准数量 标准价格”。(二)课题人员费标准成本的计算。课题人员费是指从事该科研项目研究或生产的人员工资。如果课题组成员所在单位有事业拨款,由所在单位按照国家规定的标准从事业费费中及时足额将该部分费用支付给课题组成员,并按规定在课题预算的相关科目中列示,不得在国家资助的课题专项经费中重复列支。因此,课题人员费主要是临时雇佣人员的工资。科研单位采用计时工资形式,因此,人员费首先要根据工资总额和工时总额确定标准工资分配率,然后根据研究或生产用工时间及标准工资率来制定标准工资。研究项目和生产各阶段的标准工作时间,包括准备与结束时间,以及产生不可避免的延误和废品消耗的时间;而“价格”标准是指工资率标准,即每一标准工时应分配的工资。科研项目或生产项目一般由两个或两个以上的技术等级和不同工种的工人共同完成,应采用加权平均法计算标准工资率。计算公式如下:“课题人员费标准成本=各阶段标准工时 标准工资率”;“标准工资率=工资总额÷工时总额”。(三)课题专用业务费标准成本的计算。专项业务费是指为进行科研项目研究和生产所发生的设计、资料、技术培训、技术会议、检测外协加工、鉴定费用等。在制定专项业务费标准成本时,可按历年业务费用成本资料和科研项目收入经费总额确定专项业务费率来制定标准专项业务费。专项业务费标准成本以标准专项业务费用率来表示,一般每年制定一次。计算公式如下:“标准专项业务费用率=专项业务费用总额(年度)÷计划科研收入(年度)”。(四)课题管理费标准成本的计算。课题管理费是指按一定标准和方法分摊和计入课题的管理费。在制定管理费标准成本时可按规定的标准和科研项目人员费标准总工时确定每工时管理费标准分配率来制定。计算公式如下:“每工时管理费标准分配率=管理费总额÷人员费标准总工时”。计划期间其他成本,如燃料动力、财务费用、业务活动费的标准,可根据历年财务统计资料综合考虑确定。把以上各项标准成本加以汇总,就是课题的标准成本,即:“课题标准成本=原材料标准成本+人员费标准成本+专项业务费标准成本+管理费标准成本+其他费用标准成本”。标准成本应是符合现实的。如果成本估计过于保守、经费利用率不高、估计过于乐观,会导致经费不足。因此,在制定过程中要充分考虑各种因素,将总计划的成本分摊到各个项目中,自上而下、自下而上制定标准成本。三、科研课题标准成本差异分析课题标准成本是一种预计成本,或称目标成本,科研过程中发生的实际成本可能因为种种原因与标准成本不相符合,其差额就是标准成本差异。(一)课题原材料标准成本的差异分析。就是通过将科研中所耗费的材料实际数量、所支付材料的实际价格同预先确定的标准数量、标准价格相对照。“材料价格差异= (实际材料单价-标准材料单价) 实际材料数量”,“材料数量差异=(实际材料数量-标准材料数量) 标准材料单价”。(二)课题人员费标准成本差异分析。人员费标准成本的差异分析也可区分为人员费工资率(价格)差异和人员费效率(数量)差异:“人员费工资率差异=(实际人工工资率-标准人工工资率) 实际人工小时”,“人员费工效率差异=(实际人工小时-标准人工小时) 标准人工工资率”。(三)课题专用业务费和课题管理费标准成本差异分析。对于课题专用业务费和课题管理费标准成本差异分析,我们采用弹性预算差异分析法。弹性预算差异(又称可控制差异)是实际发生的费用额与根据实际人员费标准小时计算的费用弹性预算额之间的差额。“专用业务费用弹性预算差异=实际发生的专用业务费-标准专项业务费用率实际科研收入(年度)”,“管理费弹性预算差异=实际发生的管理费-每工时管理费标准分配率 实际发生总工时”。实际成本低于标准成本形成的差异为顺差,表示成本节约,反之为逆差,表示成本超支。比较哪部分费用问题较大,可以找出问题的结症,有针对性地实施成本控制。课题标准成本差异分析可用于比较费用的节约和超支情况,以便及时发现科研实际成本与标准成本的差异,从而采取有效措施进行成本控制,促进课题的研究、生产各环节的成本管理。四、科研课题成本的事中控制科研课题标准成本制定后,为了使实际发生的成本接近甚至低于标准成本,必需在实际的研究或生产过程中进行事中控制。具体来说可以从以下几方面着手:(一)原材料成本控制。(1)通过合理的采购渠道及方式控制采购费用。采购费用是材料成本的重要组成部分,采购部门往往在材料供应上多考虑如何保证科研生产任务的完成,而较少考虑采购和管理费用的节约,影响了材料成本的降低。为了控制这部分费用,可以将采购费用同采购人员的收入挂钩,如规定“采购部门奖金额= (车间、科室领用的材料金额-采购费用) 提奖比例”等。这样采购管理费用开支大的奖金就少;反之,采购管理费用开支小的奖金就多。采用类似的方法可以充分调动供应部门千方百计节约采购费用和管理费的积极性。在具体采购时,实行按采购价差率进行承包的办法,将承包指标分解落实到每个采购员岗位,将过去见货就买、不问价格的采购方式变为货比三家、按质论价的采购方式。(2)加强库存材料的管理。库存科研物资材料由器材部门设专人核算和管理,健全物资入库、验收制度,完善领退料手续制度,对于课题组常的零星用料及常用的成套工具等低值易耗品,应按单位或人员建立保管卡,做到用多少发多少,这样既可方便使用、节约用料,又能有效防止材料过量消耗、浪费,以期有效控制课题成本。(二)人员费费用控制。一方面要严格按照规定的比例提取费用总数,不得随意超支;另一方面,在实际的研究和生产中要控制单位产品的工时消耗和总工时。课题组应针对不同因素区别对待,采取必要的技术组织措施和管理手段,提高劳动生产率,不断降低单位产品的工时消耗。对课题组人员总工时的控制关键在于减少缺勤工时、停工工时和非生产工时,提高工时利用率,严格控制加班工资和各种津贴的发放,在单位产品工时确定后,生产总工时提高就能降低各个课题所负担的人员费用。(三)科研业务费控制。凡国家有标准的开支项目,要严格按标准执行;科研管理部门开支的业务费,应在上级分配的经费总指标内从严控制,按开支明细科目列入年度预算,经批准后执行;科研单位的业务费一般应控制在单位科研费指标的25%内,从事论证、情报等研究的科研单位,开支的科研业务费最高不得超过40%;承担特殊任务的课题的科研业务费,应按上级核定的消耗指标管理。(四)其他费用控制。对燃料动力费用、专项业务费用等其他费用,实行费用报销制度,即财务部门对科研单位的各个管理部门都设置相关的费用专门账户,各管理部门有可控费用指标总额及各分指标的费用控制总额。在进行费用报销时,财务部门首先审核费用是否超标准,如果超支,财务有权拒绝报销;反之则将费用登记在费用专门账户上,然后给予报销,并将开支情况及余额反馈给各单位。这样可以及时给各管理部门提个醒,也能方便财务报销人员,避免经常出现对超支情况了解不及时的问题。对不可控费用如折旧、租金、工资等则实行实际列支制,由财务部门统一核算、管理。 试论我国会计行业的发展历程及发展趋势 于师竹 一、我国会计制度改革的历程及其基本评论 改革开放的二十多年,我国经济体制发生了根本性改变,我国会计制度也随之发生了大的变革,对我国改革开放二十多年以来会计改革情况进行研究和探讨,总结经验教训,对于进一步深化我国会计改革,完善与市场经济体制相适应的会计制度体系,有着重要的现实意义& (一) 修订与完善会计制度,建立中国特色的企业会计制度体系 改革初期,我国首先按照计划经济体制的要求,进行了恢复和重建;在重建过程中,对企业会计制度进行了修订与完善,基本建立了与社会主义计划经济体制要求相适应的企业会计制度体系,形成了我国独具特色的计划经济体制下的企业会计制度体系&其具体表现在: 1、适应计划管理的要求对会计工作整顿、恢复和重建企业会计制度1980年财政部对当时的会计规章制度进行了全面修订&首先选择涉及面广、影响大、会计业务相对较为复杂且具有普遍性的《国营工业企业会计制度》对其进行修订&于1981年制定发布了《国营施工企业会计制度》、《建设单位会计制度》&从而满足了企业健全会计核算规章、改善经营管理、提高经济效益的需要& 2、完善会计制度体系,努力开创企业会计制度工作的新局面 1982年到1987年之间,我国先后制定发布了《国营企业固定资产折旧试行条例》&制定发布了《国营企业成本管理条例》,以上会计法规,严格了企业会计核算行为,强化了企业经营管理要求,保证了经济体制改革的顺利进行,开创了新时期我国企业会计制度工作的新局面 3、适应对外开放引进外资的要求,制定实施《外商投资企业会计制度》 1985年3月正式发布了《中外合资经营企业会计制度》,这一会计制度规定了会计核算的一般要求、会计核算原则和会计处理方法、会计科目和会计报表等内容它的制定与实施,开始了我国会计制度与国际会计惯例协调的步伐& (二)制订《企业会计准则》,逐步实现与国际会计惯例的接轨 1、1992年经国务院批准,财政部以财政部长令的形式,发布了《企业会计准则》&制定发布《企业会计准则》,实现我国会计核算模式的转换,对既存的企业会计制度体系进行梳理的基础上,确定按照企业所属的行业设计制定会计制度的原则并根据企业会计准则的要求、结合各行业生产经营活动的不同特点及不同的管理要求,将国民经济各部门划分为若干个行业分别制定了工业企业会计制度、商品流通企业会计制度、农业企业会计制度等13个全国统一的行业会计制度,形成了一个比较完整的企业会计核算制度体系& 2、制定实施股份公司会计制度,促进现代企业制度改革的进行 1992年5月制定发布了《股份制试点企业会计制度》&这一会计制度的发布与实施,是我国企业会计改革的重大事件,对规范股份制试点企业的会计核算发挥了积极的作用& 3、配合市场经济体制的建立与完善,逐步完善企业会计核算办法&1993年12月至1994年5月先后制定发布了新税制的会计核算办法,具体包括《关于增值税会计处理的规定》、《关于消费税会计处理的规定》、《关于营业税会计处理的规定》以及《关于资源税会计处理的规定》等新税制会计核算办法&适应现代企业制度改革的需要,先后制定发布了《合并会计报表暂行规定》、《企业商品期货业务会计处理暂行规定》、《国有企业试行破产有关会计处理问题暂行规定》& 4、配合新修订《会计法》的实施,统一规范企业财务会计报告和会计核算行为&全国人民代表大会常务委员会于1999年审议通过新修订的《会计法》&适应市场经济发展的新形势,规范会计行为,保证会计信息的真实完整,提高经济效益,维护市场经济秩序& 二、会计行业环境的变迁对会计行业的影响 中国会计的环境特征主要在于: (一) 面对转型经济环境下的过渡性环境 目前中国处于经济转型之中&一是经济体制转型,即通常所说的市场化:由计划体制逐步过渡到市场经济体制,意在最终建立完善的以市场机制和价格供求关系来配置经济资源的市场经济体制&二是社会转型,指从传统型社会向现代型社会的过渡,尤其是特指当代中国从传统社会向现代社会、从农业社会向工业社会、从封闭性社会向开放性社会的社会变迁和发展的& (二)面对信息使用者的需求变化环境的影响 目前的经济形态下,会计信息需求的变化体现在信息使用者所需求的信息不仅包括可靠的财务信息,还包括分部信息、金融工具信息、社会责任信息、人力资本信息、前瞻性信息、经营业绩信息和背景信息等和决策相关的信息&这种新要求无论是从质量上还是从数量上都与过去大相径庭,尤其是在时效上要求更为严格&另外目前占企业主导地位的不再是资本的投资者,而是知识的拥有者,它根本上动摇了传统中物质资本的所有者在企业中的统治地位,知识资产作为企业创造财富的主要力量,理应同物质资本具有同等的享有企业盈余的权利&因此,会计工作的目标也必然随着这种所有者地位的变化而变化,由过去向投资者、债权人提供信息为主转向以计量和反映企业主要资源,向一切信息使用者提供相关信息、满足其决需求为 主& (三)面临加入的挑战 1、金融市场&首先,金融市场规模的扩大、资金供给的增加和金融工具的不断创新,为我国企业筹资、投资和规避风险提供了多种可供选择的组合方式&其次拓展了金融服务范围,同时也派生出利率风险、汇率风险等新的风险& 2、经济结构&主表现在:加入后,我国原有一些受保护的部门和资本及技术密集型部门将产生较大的冲击,而一些具有相对优势的劳动密集型产业以及已形成规模经济且技术成熟的部门则将从中受益,这必定会影响到我国企业资金运动的方向及规模,公司内部重构时的资产剥离,公司间并购时的资本运作,企业破产时的重整和清算等等都将成为会计行业的重要课题& 3、法规、财税环境&入世后我国现行法律法规中那些与规则有抵触的条例将逐步被修改&会计行业人员如果不熟悉这种变化后的新的法律法规环境,可能导致财务决策失误,可能招致不必要的处罚或诉讼& 4、人才环境变化的影响&加入WTO后,企业间人力资源的竞争将更加激烈,如何留住优秀的会计行业人才,甚至吸引国外管理人才流入,从而在这场中外人才争夺战中获胜,以及会计人员本身如何提高自身素质将成为我国会计行业和人力资源管理的重要课题& 三、中国会计行业的发展趋势 (一)与国际接轨,完善会计准则 目前我国市场经济体制基本建立和完善,会计环境发生根本性变化,现行会计准则、制度从内容上看已经与国际会计惯例非常接近,但仍然存在一些差异&存在这些差异的主要原因是我国市场环境尚不完善&我国一直执行的会计准则较为抽象,只能侧重于一些基本概念的简要描述,在会计规范和监管工作遇到种种问题,首先需要反思的就是什么是最好的会计准则&基于这样的背景条件,逐步完善现行会计准则,相应地,实实在在地从实质上找出现行国际会计准则及其解释和国际会计准则委员会今后新发布的国际财务报告准则及其解释与我国现行会计规范的差异,给出官方的文本,是增强我国会计规范的可理解性和稳妥加速我国会计国际化进程的可取途径和明智的举措&是适应市场经济发展的需要,不断修改和完善我国现行会计标准实现我国会计标准与国际会计惯例之间的协调& (二)是根据改革开放中出现的新经济业务,及时制定新的会计标准& 我国加入WTO后,许多成熟市场经济环境下的经济业务将在我国涌现,需要制定新的会计标准规范其会计处理&在我国企业参与国际经济大循环之后,企业竞争将更加激烈,有些企业可能将在市场竞争中被淘汰,有些企业为了生存和发展将作大规模的重组和购并,需要制定与企业终止营业、破产清算、企业合并和重组等会计标准来规范有关会计问题;同时,随着我国企业改革的深入、政府职能的转换和社会保障体系的建设,企业为安排职工福利、养老金计划的支出将逐步增加,也需要制定相应的会计标准,规范其会计处理等&国际会计准则理事会和国际上许多国家都制定有衍生金融工具、企业合并、养老金计划等会计准则,我国已经将这些项目纳入到了未来几年的会计标准制定计划& (三)进一步转换政府职能,加强会计监管,满足社会公共需要& 在我国目前会计人员整体业务素质不高,注册会计师行业自律性较差的环境下,加强对企业会计信息质量和注册会计师审计质量的监督检查,治理会计信息失真,整顿会计工作秩序;推进会计师事务所的体制改革和注册会计师行业管理,提高注册会计师审计的整体水平;敦促企业按照现代企业制度的要求,完善公司内部治理结构,建立健全内部控制制度,强化内部 会计监督;完善企业(尤其是上市公司)财务信息披露制度,提高企业经营行为的透明度是会计行业发展的又一趋势& (四)建立独立高效的会计行业组织& 在会计行业组织方面,目前在我国绝大多数企业中,会计行业与会计均是合署办公,实行混岗作业,从而导致两者职责不明确,影响了各自职能的充分发挥&日本学者宫匡章在《会计情报手册》中指出:/财务是以资本为对象的实体活动,会计是以财务活动及其结果为对象的情报处理活动,会计的机能是组织情报,不处理资金筹集、供应与运动,仅在必要时反映其结果&这就是说,财务是进行有关筹资、供应与运用的意向决定,会计是为这种意向决定提供情报&0由此可见,财务与会计的职能是不同的,不可混为一谈&目前由于会计行业的环境和内容变得更加复杂,加上企业实施外部扩张战略促使企业规模进一步扩大,会计要迅速整合财务资源以便对市场做出反应,首要条件就是相关财务信息可以在企业内部直接、及时、准确地进行传递,会计行业在企业管理中的核心地位更为突出,因此在企业内应专门设置 反映灵敏、高效快速的新型会计行业机构,以专司会计行业之职& (五)构建人力资源和物质资源相结合的会计行业机制& 加入WTO预示着中国正迈进知识经济的崭新时代&传统会计行业将财务资源的 范围界定为企业的物质资源(包括资金和物资),而将知识资源游离于财务资源的范畴之外,这种界定在知识经济时代显然已不合时宜,人是知识的载体,对知识的管理归根结底是对人的管理&在知识经济时代,会计行业的重心应从传统的物质资源管理转向人力资源管理,构建人力资源和物质资源相结合的会计行业机制&建立人力资源会计行业机制,关键在于建立良好的人事与财务相结合的制度化管理;企业按自身规模和管理特点划分为若干会计行业层次,赋予各层次管理者对等的财务和人事权责并予以制度化&各级层在保证完成各项财务指标的前提下,有权决定该部门的人员指标和人员素质要求,有权提出人员奖罚建议& (六)培养高素质的会计行业人员& 要全面提升财务人员综合素质,国家和企业应该双管齐下&对于国家而言,一方面应该建立财会人员的后续教育体系,通过有效的教学手段(如集中培训、函授、远程教育等)对财会人员进行适时的知识更新;另一方面,严格执行《会计法》关于财会人员在职培训的规定,强制财会人员接受后续教育&对于企业而言,其途径主要有:第一,经常组织学习和培训,不断提高财务人员专业技能、外语、写作及计算机操作及运用能力,适时进行知识的更新;第二,鼓励财务人员接受函授、远程教育,并为其提供必要的条件;第三,鼓励财务人员思考和创新,为其参与企业的经营管理和决策创造条件;第四,对财务人员进行阶段考核,竞争上岗& (作者单位:中南大学粉末冶金研究院)
请登录后再发表评论!}

我要回帖

更多关于 逻辑回归和决策树 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信