如何提高江苏汉睿数据存储中心中心的存储性能

点击联系发帖人 时间：2017-01-06 00:15

家庭数据存储中心

如何在数据中心实现高效率存储 - 推酷
如何在数据中心实现高效率存储
《企业网D1Net》9月25日讯
软件对闪存的支持，以及最大化固态硬盘的性能与传统硬盘的容量是非常有必要的。
改善下一代
的I/O性能和云运算环境对于支持电子商务、数据库和电子邮件应用程序都是至关重要的。要成功的部署高性能存储，存储软件必须对闪存予以支持，并尽可能的提高固态存储的性能和传统硬盘的容量，实现一个具有最优性价比的存储解决方案。
随着信息需求的急剧增加，下一代数据中心和云部署都需要具备收益高的存储解决方案，来给用户提供高质量的数据访问和数据操作服务。通常情况下，数据中心（无论是基于企业还是云）都会运行特定的应用程序，比如：数据库索引和电子邮件。为了实现顶级质量服务，这些应用程序通常运行于具有高IOPS的
上，提供访问存储系统内数据的能力。
一般来讲，用户的数量越多，对存储系统的IOPS需求越高。
在这种情况下，I/O容量将会在存储容量之前就被耗尽，因此数据中心和云应用程序需要添加额外的存储来提高性能。存储系统拥有众多复制数据以及管理数据一致性的后台软件。这种做法不仅会导致存储利用率过低，还会使数据管理方案过于复杂，从而增加每个用户的成本和每次存储部署交易成本。扩展存储规模来获取高性能，会提高资本和运营开支，包括：能耗、冷却成本以及空间要求。
总的来说，我们可以用固态硬盘来减缓存储系统性能所出现的瓶颈。对固态硬盘进行智能部署来加速性能，同时使用传统硬盘来进行冷存储，降低系统每GB的整体成本。采用支持闪存和固态硬盘的文件系统和软件应用程序可以实现这一目标，Zetta File System 等现代化文件系统就可支持闪存和固态硬盘，我们可以利用固态硬盘来改善存储系统的整体性能。
ZFS是一个内置逻辑卷管理器的企业级文件系统，具有像RAID-5一样的可靠性、以及可用性和服务性（RAS）。ZFS利用固态硬盘的用途有两个
1.作为一个低延迟的写日志（ZIL-ZFS intent log）来改善系统的整体性能。
2.作为一个高IOPS读缓存（L2ARC）来改善“热数据”定位和主要数据访问延时。
ZFS混合存储池是一个稳健的、可扩展的文件系统，具有现今其他文件系统都无法实现的功能。其中一个具有革命性的功能是：它允许用户将DRAM、SSD和HHD整合进一个加速存储介质。
自适应替换缓存（ARC）位于DRAM中，所有数据写入ZFS池中的第一个目的地就是DRAM，同时它也是ZFS池中读取最快的数据资源。
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置：公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致在一个千万级的数据库查寻中，如何提高查询效率？
在一个千万级的查寻中，如何提高查询效率？
a. 对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。
b. 应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如： select id from t where num is null 可以在num上设置默认值0，确保表中num列没有null值，然后这样查询： select id from t where num=0
c. 并不是所有索引对查询都有效，SQL是根据表中数据来进行查询优化的，当索引列有大量数据重复时,查询可能不会去利用索引，如一表中有字段sex，male、female几乎各一半，那么即使在sex上建了索引也对查询效率起不了作用。
d. 索引并不是越多越好，索引固然可以提高相应的 select 的效率，但同时也降低了 insert 及 update 的效率，因为 insert 或 update 时有可能会重建索引，所以怎样建索引需要慎重考虑，视具体情况而定。一个表的索引数最好不要超过6个，若太多则应考虑一些不常使用到的列上建的索引是否有必要。
e. 应尽可能的避免更新索引数据列，因为索引数据列的顺序就是表记录的物理存储顺序，一旦该列值改变将导致整个表记录的顺序的调整，会耗费相当大的资源。若应用需要频繁更新索引数据列，那么需要考虑是否应将该索引建为索引。
f. 尽量使用数字型字段，若只含数值信息的字段尽量不要设计为字符型，这会降低查询和连接的性能，并会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符，而对于数字型而言只需要比较一次就够了。
g. 尽可能的使用 varchar/nvarchar 代替 char/nchar ，因为首先变长字段存储空间小，可以节省存储空间，其次对于查询来说，在一个相对较小的字段内搜索效率显然要高些。
h. 尽量使用表变量来代替临时表。如果表变量包含大量数据，请注意索引非常有限（只有主键索引）。
i. 避免频繁创建和删除临时表，以减少系统表资源的消耗。
j. 临时表并不是不可使用，适当地使用它们可以使某些例程更有效，例如，当需要重复引用大型表或常用表中的某个数据集时。但是，对于一次性事件，最好使用导出表。
k. 在新建临时表时，如果一次性插入数据量很大，那么可以使用 select into 代替 create table，避免造成大量 log ，以提高速度；如果数据量不大，为了缓和系统表的资源，应先create table，然后insert。
l. 如果使用到了临时表，在存储过程的最后务必将所有的临时表显式删除，先 truncate table ，然后 drop table ，这样可以避免系统表的较长时间锁定。
2)SQL语句方面：
a. 应尽量避免在 where 子句中使用!=或&&操作符，否则将引擎放弃使用索引而进行全表扫描。
b. 应尽量避免在 where 子句中使用 or 来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，如： select id from t where num=10 or num=20 可以这样查询： select id from t where num=10 union all select id from t where num=20
c. in 和 not in 也要慎用，否则会导致全表扫描，如： select id from t where num in(1,2,3) 对于连续的数值，能用 between 就不要用 in 了： select id from t where num between 1 and 3
d. 下面的查询也将导致全表扫描： select id from t where name like ‘%abc%’
e. 如果在 where 子句中使用参数，也会导致全表扫描。因为SQL只有在运行时才会解析局部变量，但优化程序不能将访问计划的选择推迟到运行时；它必须在编译时进行选择。然而，如果在编译时建立访问计划，变量的值还是未知的，因而无法作为索引选择的输入项。如下面语句将进行全表扫描： select id from t where num=@num 可以改为强制查询使用索引： select id from t with(index(索引名)) where num=@num
f. 应尽量避免在 where 子句中对字段进行表达式操作，这将导致引擎放弃使用索引而进行全表扫描。如： select id from t where num/2=100 应改为: select id from t where num=100*2
g. 应尽量避免在where子句中对字段进行函数操作，这将导致引擎放弃使用索引而进行全表扫描。如： select id from t where substring(name,1,3)=’abc’–name以abc开头的id select id from t where datediff(day,createdate,’′)=0–‘’生成的id 应改为: select id from t where name like ‘abc%’ select id from t where createdate&=’′ and createdate&’′
h. 不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算，否则系统将可能无法正确使用索引。
i. 不要写一些没有意义的查询，如需要生成一个空表结构： select col1,col2 into #t from t where 1=0 这类代码不会返回任何结果集，但是会消耗系统资源的，应改成这样： create table #t(…)
j. 很多时候用 exists 代替 in 是一个好的选择： select num from a where num in(select num from b) 用下面的语句替换： select num from a where exists(select 1 from b where num=a.num)
k. 任何地方都不要使用 select * from t ，用具体的字段列表代替“*”，不要返回用不到的任何字段。
l. 尽量避免使用游标，因为游标的效率较差，如果游标操作的数据超过1万行，那么就应该考虑改写。
m. 尽量避免向客户端返回大数据量，若数据量过大，应该考虑相应需求是否合理。
n. 尽量避免大事务操作，提高系统并发能力。
3)java方面：重点内容
a.尽可能的少造对象。
b.合理摆正系统设计的位置。大量数据操作，和少量数据操作一定是分开的。大量的数据操作，肯定不是ORM框架搞定的。，
c.使用jDBC链接数据库操作数据
d.控制好内存，让数据流起来，而不是全部读到内存再处理，而是边读取边处理；
e.合理利用内存，有的数据要缓存
如何优化数据库，如何提高数据库的性能?
1）硬件调整性能最有可能影响性能的是磁盘和网络吞吐量,解决办法扩大虚拟内存，并保证有足够可以扩充的空间；把数据库服务器上的不必要服务关闭掉；把数据库服务器和主域服务器分开；把SQL数据库服务器的吞吐量调为最大；在具有一个以上处理器的机器上运行SQL。
2）调整数据库
若对该表的查询频率比较高，则建立索引；建立索引时，想尽对该表的所有查询搜索操作，按照where选择条件建立索引，尽量为整型键建立为有且只有一个簇集索引，数据在物理上按顺序在数据页上，缩短查找范围，为在查询经常使用的全部列建立非簇集索引，能最大地覆盖查询；但是索引不可太多，执行UPDATE DELETE INSERT语句需要用于维护这些索引的开销量急剧增加；避免在索引中有太多的索引键；避免使用大型数据类型的列为索引；保证每个索引键值有少数行。
3）使用存储过程
应用程序的实现过程中，能够采用存储过程实现的对数据库的操作尽量通过存储过程来实现，因为存储过程是存放在数据库服务器上的一次性被设计、编码、测试，并被再次使用，需要执行该任务的应用可以简单地执行存储过程，并且只返回结果集或者数值，这样不仅可以使程序模块化，同时提高响应速度，减少网络流量，并且通过输入参数接受输入，使得在应用中完成逻辑的一致性实现。
4）应用程序结构和算法
建立查询条件索引仅仅是提高速度的前提条件，响应速度的提高还依赖于对索引的使用。因为人们在
使用SQL时往往会陷入一个误区，即太关注于所得的结果是否正确，特别是对数据量不是特别大的数据库操作时，是否建立索引和使用索引的好坏对程序的响应速度并不大，因此程序员在书写程序时就忽略了不同的实现方法之间可能存在的性能差异，这种性能差异在数据量特别大时或者大型的或是复杂的数据库环境中（如联机事务处理OLTP或决策支持系统DSS）中表现得尤为明显。在工作实践中发现，不良的SQL往往来自于不恰当的索引设计、不充份的连接条件和不可优化的where子句。在对它们进行适当的优化后，其运行速度有了明显地提高！
(window.slotbydup=window.slotbydup || []).push({
id: '2467140',
container: s,
size: '1000,90',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2467141',
container: s,
size: '1000,90',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2467142',
container: s,
size: '1000,90',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2467143',
container: s,
size: '1000,90',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2467148',
container: s,
size: '1000,90',
display: 'inlay-fix'童家旺：如何用分表存储来提高性能
　作者: 景保玉　编辑:
　　【IT168 资讯】今天是2011年数据库技术大会的第二天，第一天在数据库的开发和调优方面讲了许多，今天下午讲的是数据库系统优化以及构建设计，来自支付宝资深数据库架构师童家旺给大家分享的关于数据存储性能优化的一点想法，他从自己的个人经验中总结了关于数据库存储的性能优化。　　　　　　首先，童家旺介绍了他认为的什么是优化：第一、做任何事情最快的方法就是什么也不做。▲支付宝资深数据库架构师童家旺　　第二、不访问不必要的数据：使用B*Tree/hash等方法定位必要的数据。使用column Store或分表的方式将数据分开存储。使用Bloom filter算法排除空值查询。　　第三、合理的利用硬件来提升访问效率：使用缓存消除对数据的重复访问。使用批量处理来减少磁盘的Seek操作。使用批量处理来减少网络的Round Trip。使用SSD来提升磁盘访问效率。　　响应时间和吞吐量之间的关系　　1、性能。衡量完成特定任务的速度或效率。　　2、响应时间。衡量系统与用户交互式多久能够发出响应。　　3、吞吐量。衡量系统在单位时间里可以完成的任务量。　　　　▲反应时间　　　　▲传统磁盘的访问特性　　B*Tree优化数据访问介绍　　　　▲B*Tree优化数据访问　　B*Tree优化数据访问模拟场景　　　　▲B*Tree优化数据访问模拟场景　　童家旺通过阿里巴巴的真实应用场景介绍了如何用分表存储来提高性能。　　一、场景介绍：　　1、表VeryBigTable含有30个列　　2、表的记录数为50,000,000条　　3、平均每个用户为300条左右　　4、其中有2个列属于详细描述字段,平均长度为2k　　5、其它的列的总长度平均为250个字节　　6、此表上的查询有两种模式　　7、列出表中的主要信息(每次20条,不包含详细信息,90%的查询)　　8、查看记录的详细信息(10%的查询)　　9、保存与Oracle数据库,默认block_size(8k)　　二、要求：　　1、对此业务进行优化　　2、分析数据,说服开发部门实施此优化　　三、性能分析　　1、每块记录数　　8192 * 0.80(1) / 250 = 25.5 (主表)　　8192 * 0.80 / 2000 = 3.27(详情表)　　8192 * 0.80 / ( 2000 + 250 ) = 2.91　　2、访问的逻辑IO(内存块访问)　　List的查询代价　　改进后=( 300/25.5 ) * y + 4 + x = 4 + x + 11.8y = 4(2) + 7(3) + 11.8 * 1.5(4) = 28.7　　改进前=( 300/2.91 ) * y + 4 + x = 4 + x + 103.y = 4 + 7 + 103 * 1.5 = 165.5　　3、访问涉及到的物理读(磁盘块访问)　　List的查询代价(逻辑IO * ( 1 & 命中率 ))　　改进后=28.7 * ( 1 & 0.85(5)) = 4.305　　改进前=165.5 * ( 1 & 0.85 ) = 24.825　　4、访问时间(ms)　　改进前=逻辑IO时间+物理IO时间= 28.7 * 0.01(6) + 4.305 * 7(7) = 30.422ms　　改进后=逻辑IO时间+物理IO时间= 165.5 * 0.01 + 24.825 * 7 = 175.43ms
大学生分期购物销量榜
已有条评论
IT168企业级大数据分析系统作为一个关键性的系统在各个公司迅速崛起，但是这种海量规模的数据带来了前所未有的性能挑战。同时，如果大数据分析系统无法在第一时间为运营决策提供关键数据，那么这样的大数据分析系统一文不值。本文将从技术无关的角度讨论一些提高性能的方法。下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取，数据清洗，处理，存储，以及介绍)。本文应作为一个通用准则，以确保最终的大数据分析平台能满足性能要求。
1.大数据是什么?
大数据是最近IT界最常用的术语之一。然而对大数据的定义也不尽相同，所有已知的论点例如结构化的和非结构化、大规模的数据等等都不够完整。大数据系统通常被认为具有数据的五个主要特征，通常称为数据的5 Vs。分别是大规模，多样性，高效性、准确性和价值性。
据Gartner称，大规模可以被定义为“在本(地)机数据采集和处理技术能力不足以为用户带来商业价值。当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决方案。
这种大规模的数据没将不仅仅是来自于现有的数据源，同时也会来自于一些新兴的数据源，例如常规(手持、工业)设备，日志，汽车等，当然包括结构化的和非结构化的数据。
据Gartner称，多样性可以定义如下：“高度变异的信息资产，在生产和消费时不进行严格定义的包括多种形式、类型和结构的组合。同时还包括以前的历史数据，由于技术的变革历史数据同样也成为多样性数据之一 “。
高效性可以被定义为来自不同源的数据到达的速度。从各种设备，传感器和其他有组织和无组织的数据流都在不断进入IT系统。由此，实时分析和对于该数据的解释(展示)的能力也应该随之增加。
根据Gartner，高效性可以被定义如下：“高速的数据流I/O(生产和消费)，但主要聚焦在一个数据集内或多个数据集之间的数据生产的速率可变上”。
准确性，或真实性或叫做精度是数据的另一个重要组成方面。要做出正确的商业决策，当务之急是在数据上进行的所有分析必须是正确和准确(精确)的。
大数据系统可以提供巨大的商业价值。像电信，金融，电子商务，社交媒体等，已经认识到他们的数据是一个潜在的巨大的商机。他们可以预测用户行为，并推荐相关产品，提供危险交易预警服务，等等。
与其他IT系统一样，性能是大数据系统获得成功的关键。本文的中心主旨是要说明如何让大数据系统保证其性能。
2.大数据系统应包含的功能模块
大数据系统应该包含的功能模块，首先是能够从多种数据源获取数据的功能，数据的预处理(例如，清洗，验证等)，存储数据，数据处理、数据分析等(例如做预测分析，生成在线使用建议等等)，最后呈现和可视化的总结、汇总结果。
下图描述了大数据系统的这些高层次的组件：
2.1各种各样的数据源
当今的IT生态系统，需要对各种不同种类来源的数据进行分析。这些来源可能是从在线Web应用程序，批量上传或feed，流媒体直播数据，来自工业、手持、家居传感的任何东西等等。
显然从不同数据源获取的数据具有不同的格式、使用不同的协议。例如，在线的Web应用程序可能会使用SOAP / XML格式通过HTTP发送数据，feed可能会来自于CSV文件，其他设备则可能使用MQTT通信协议。
由于这些单独的系统的性能是不在大数据系统的控制范围之内，并且通常这些系统都是外部应用程序，由第三方供应商或团队提供并维护，所以本文将不会在深入到这些系统的性能分析中去。
2.2数据采集
第一步，获取数据。这个过程包括分析，验证，清洗，转换，去重，然后存到适合你们公司的一个持久化设备中(硬盘、存储、云等)。
在下面的章节中，本文将重点介绍一些关于如何获取数据方面的非常重要的技巧。请注意，本文将不讨论各种数据采集技术的优缺点。
2.3存储数据
第二步，一旦数据进入大数据系统，清洗，并转化为所需格式时，这些过程都将在数据存储到一个合适的持久化层中进行。
在下面的章节中，本文将介绍一些存储方面的最佳实践(包括逻辑上和物理上)。在本文结尾也会讨论一部分涉及数据安全方面的问题。
2.4数据处理和分析
第三步，在这一阶段中的一部分干净数据是去规范化的，包括对一些相关的数据集的数据进行一些排序，在规定的时间间隔内进行数据结果归集，执行机器学习算法，预测分析等。
在下面的章节中，本文将针对大数据系统性能优化介绍一些进行数据处理和分析的最佳实践。
2.5数据的可视化和数据展示
最后一个步骤，展示经过各个不同分析算法处理过的数据结果。该步骤包括从预先计算汇总的结果(或其他类似数据集)中的读取和用一种友好界面或者表格(图表等等)的形式展示出来。这样便于对于数据分析结果的理解。
3.数据采集中的性能技巧
数据采集是各种来自不同数据源的数据进入大数据系统的第一步。这个步骤的性能将会直接决定在一个给定的时间段内大数据系统能够处理的数据量的能力。
数据采集过程基于对该系统的个性化需求，但一些常用执行的步骤是 – 解析传入数据，做必要的验证，数据清晰，例如数据去重，转换格式，并将其存储到某种持久层。
涉及数据采集过程的逻辑步骤示如下图所示：
下面是一些性能方面的技巧：
●来自不同数据源的传输应该是异步的。可以使用文件来传输、或者使用面向消息的(MoM)中间件来实现。由于数据异步传输，所以数据采集过程的吞吐量可以大大高于大数据系统的处理能力。异步数据传输同样可以在大数据系统和不同的数据源之间进行解耦。大数据基础架构设计使得其很容易进行动态伸缩，数据采集的峰值流量对于大数据系统来说算是安全的。
●如果数据是直接从一些外部数据库中抽取的，确保拉取数据是使用批量的方式。
●如果数据是从feed file解析，请务必使用合适的解析器。例如，如果从一个XML文件中读取也有不同的解析器像JDOM，SAX，DOM等。类似地，对于CSV，JSON和其它这样的格式，多个解析器和API是可供选择。选择能够符合需求的性能最好的。
●优先使用内置的验证解决方案。大多数解析/验证工作流程的通常运行在服务器环境(ESB /应用服务器)中。大部分的场景基本上都有现成的标准校验工具。在大多数的情况下，这些标准的现成的工具一般来说要比你自己开发的工具性能要好很多。
●类似地，如果数据XML格式的，优先使用XML(XSD)用于验证。
●即使解析器或者校等流程使用自定义的脚本来完成，例如使用java优先还是应该使用内置的函数库或者开发框架。在大多数的情况下通常会比你开发任何自定义代码快得多。
●尽量提前滤掉无效数据，以便后续的处理流程都不用在无效数据上浪费过多的计算能力。
●大多数系统处理无效数据的做法通常是存放在一个专门的表中，请在系统建设之初考虑这部分的数据库存储和其他额外的存储开销。
●如果来自数据源的数据需要清洗，例如去掉一些不需要的信息，尽量保持所有数据源的抽取程序版本一致，确保一次处理的是一个大批量的数据，而不是一条记录一条记录的来处理。一般来说数据清洗需要进行表关联。数据清洗中需要用到的静态数据关联一次，并且一次处理一个很大的批量就能够大幅提高数据处理效率。
●数据去重非常重要这个过程决定了主键的是由哪些字段构成。通常主键都是时间戳或者id等可以追加的类型。一般情况下，每条记录都可能根据主键进行索引来更新，所以最好能够让主键简单一些，以保证在更新的时候检索的性能。
●来自多个源接收的数据可以是不同的格式。有时，需要进行数据移植，使接收到的数据从多种格式转化成一种或一组标准格式。
●和解析过程一样，我们建议使用内置的工具，相比于你自己从零开发的工具性能会提高很多。
●数据移植的过程一般是数据处理过程中最复杂、最紧急、消耗资源最多的一步。因此，确保在这一过程中尽可能多的使用并行计算。
●一旦所有的数据采集的上述活动完成后，转换后的数据通常存储在某些持久层，以便以后分析处理，综述，聚合等使用。
●多种技术解决方案的存在是为了处理这种持久(RDBMS，NoSQL的分布式文件系统，如Hadoop和等)。
●谨慎选择一个能够最大限度的满足需求的解决方案。
4.数据存储中的性能技巧
一旦所有的数据采集步骤完成后，数据将进入持久层。
在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构(数据模型)。这些技巧适用于所有的数据处理过程，无论是一些解析函数生的或最终输出的数据还是预计算的汇总数据等。
●首先选择数据范式。您对数据的建模方式对性能有直接的影响，例如像数据冗余，磁盘存储容量等方面。对于一些简单的文件导入数据库中的场景，你也许需要保持数据原始的格式，对于另外一些场景，如执行一些分析计算聚集等，你可能不需要将数据范式化。
●大多数的大数据系统使用NoSQL数据库替代RDBMS处理数据。
●不同的NoSQL数据库适用不同的场景，一部分在select时性能更好，有些是在插入或者更新性能更好。
●数据库分为行存储和列存储。
●具体的数据库选型依赖于你的具体需求(例如，你的应用程序的数据库读写比)。
●同样每个数据库都会根据不同的配置从而控制这些数据库用于数据库复制备份或者严格保持数据一致性。
●这些设置会直接影响数据库性能。在数据库技术选型前一定要注意。
●压缩率、缓冲池、超时的大小，和缓存的对于不同的NoSQL数据库来说配置都是不同的，同时对数据库性能的影响也是不一样的。
●数据Sharding和分区是这些数据库的另一个非常重要的功能。数据Sharding的方式能够对系统的性能产生巨大的影响，所以在数据Sharding和分区时请谨慎选择。
●并非所有的NoSQL数据库都内置了支持连接，排序，汇总，过滤器，索引等。
●如果有需要还是建议使用内置的类似功能，因为自己开发的还是不灵。
●NoSQLs内置了压缩、编解码器和数据移植工具。如果这些可以满足您的部分需求，那么优先选择使用这些内置的功能。这些工具可以执行各种各样的任务，如格式转换、压缩数据等，使用内置的工具不仅能够带来更好的性能还可以降低网络的使用率。
●许多NoSQL数据库支持多种类型的文件系统。其中包括本地文件系统，分布式文件系统，甚至基于云的存储解决方案。
●如果在交互式需求上有严格的要求，否则还是尽量尝试使用NoSQL本地(内置)文件系统(例如HBase 使用HDFS)。
●这是因为，如果使用一些外部文件系统/格式，则需要对数据进行相应的编解码/数据移植。它将在整个读/写过程中增加原本不必要的冗余处理。
●大数据系统的数据模型一般来说需要根据需求用例来综合设计。与此形成鲜明对比的是RDMBS数据建模技术基本都是设计成为一个通用的模型，用外键和表之间的关系用来描述数据实体与现实世界之间的交互。
●在硬件一级，本地RAID模式也许不太适用。请考虑使用SAN存储。
5.数据处理分析中的性能技巧
数据处理和分析是一个大数据系统的核心。像聚合，预测，聚集，和其它这样的逻辑操作都需要在这一步完成。
本节讨论一些数据处理性能方面的技巧。需要注意的是大数据系统架构有两个组成部分，实时数据流处理和批量数据处理。本节涵盖数据处理的各个方面。
●在细节评估和数据格式和模型后选择适当的数据处理框架。
●其中一些框架适用于批量数据处理，而另外一些适用于实时数据处理。
●同样一些框架使用内存模式，另外一些是基于磁盘io处理模式。
●有些框架擅长高度并行计算，这样能够大大提高数据效率。
●基于内存的框架性能明显优于基于磁盘io的框架，但是同时成本也可想而知。
●概括地说，当务之急是选择一个能够满足需求的框架。否则就有可能既无法满足功能需求也无法满足非功能需求，当然也包括性能需求。
●一些这些框架将数据划分成较小的块。这些小数据块由各个作业独立处理。协调器管理所有这些独立的子作业
●在数据分块是需要当心。
●该数据快越小，就会产生越多的作业，这样就会增加系统初始化作业和清理作业的负担。
●如果数据快太大，数据传输可能需要很长时间才能完成。这也可能导致资源利用不均衡，长时间在一台服务器上运行一个大作业，而其他服务器就会等待。
●不要忘了查看一个任务的作业总数。在必要时调整这个参数。
●最好实时监控数据块的传输。在本机机型io的效率会更高，这么做也会带来一个副作用就是需要将数据块的冗余参数提高(一般hadoop默认是3份)这样又会反作用使得系统性能下降。
●此外，实时数据流需要与批量数据处理的结果进行合并。设计系统时尽量减少对其他作业的影响。
●大多数情况下同一数据集需要经过多次计算。这种情况可能是由于数据抓取等初始步骤就有报错，或者某些业务流程发生变化，值得一提的是旧数据也是如此。设计系统时需要注意这个地方的容错。
●这意味着你可能需要存储原始数据的时间较长，因此需要更多的存储。
●数据结果输出后应该保存成用户期望看到的格式。例如，如果最终的结果是用户要求按照每周的时间序列汇总输出，那么你就要将结果以周为单位进行汇总保存。
●为了达到这个目标，大数据系统的数据库建模就要在满足用例的前提下进行。例如，大数据系统经常会输出一些结构化的数据表，这样在展示输出上就有很大的优势。
●更常见的是，这可能会这将会让用户感觉到性能问题。例如用户只需要上周的数据汇总结果，如果在数据规模较大的时候按照每周来汇总数据，这样就会大大降低数据处理能力。
●一些框架提供了大数据查询懒评价功能。在数据没有在其他地方被使用时效果不错。
●实时监控系统的性能，这样能够帮助你预估作业的完成时间。
6.数据可视化和展示中的性能技巧
精心设计的高性能大数据系统通过对数据的深入分析，能够提供有价值战略指导。这就是可视化的用武之地。良好的可视化帮助用户获取数据的多维度透视视图。
需要注意的是传统的BI和报告工具，或用于构建自定义报表系统无法大规模扩展满足大数据系统的可视化需求。同时，许多COTS可视化工具现已上市。
本文将不会对这些个别工具如何进行调节，而是聚焦在一些通用的技术，帮助您能打造可视化层。
●确保可视化层显示的数据都是从最后的汇总输出表中取得的数据。这些总结表可以根据时间短进行汇总，建议使用分类或者用例进行汇总。这么做可以避免直接从可视化层读取整个原始数据。
●这不仅最大限度地减少数据传输，而且当用户在线查看在报告时还有助于避免性能卡顿问题。
●重分利用大化可视化工具的缓存。缓存可以对可视化层的整体性能产生非常不错的影响。
●物化视图是可以提高性能的另一个重要的技术。
●大部分可视化工具允许通过增加线程数来提高请求响应的速度。如果资源足够、访问量较大那么这是提高系统性能的好办法。
●尽量提前将数据进行预处理，如果一些数据必须在运行时计算请将运行时计算简化到最小。
●可视化工具可以按照各种各样的展示方法对应不同的读取策略。其中一些是离线模式、提取模式或者在线连接模式。每种服务模式都是针对不同场景设计的。
●同样，一些工具可以进行增量数据同步。这最大限度地减少了数据传输，并将整个可视化过程固化下来。
●保持像图形，图表等使用最小的尺寸。
●大多数可视化框架和工具的使用可缩放矢量图形(SVG)。使用SVG复杂的布局可能会产生严重的性能影响。
7.数据安全以及对于性能的影响
像任何IT系统一样安全性要求也对大数据系统的性能有很大的影响。在本节中，我们讨论一下安全对大数据平台性能的影响。
– 首先确保所有的数据源都是经过认证的。即使所有的数据源都是安全的，并且没有针对安全方面的需求，那么你可以灵活设计一个安全模块来配置实现。
– 数据进过一次认证，那么就不要进行二次认证。如果实在需要进行二次认证，那么使用一些类似于token的技术保存下来以便后续继续使用。这将节省数据一遍遍认证的开销。
– 您可能需要支持其他的认证方式，例如基于PKI解决方案或Kerberos。每一个都有不同的性能指标，在最终方案确定前需要将其考虑进去。
– 通常情况下数据压缩后进入大数据处理系统。这么做好处非常明显不细说。
– 针对不同算法的效率、对cpu的使用量你需要进行比较来选出一个传输量、cpu使用量等方面均衡的压缩算法。
– 同样，评估加密逻辑和算法，然后再选择。
– 明智的做法是敏感信息始终进行限制。
– 在审计跟踪表或登录时您可能需要维护记录或类似的访问，更新等不同的活动记录。这可能需要根据不同的监管策略和用户需求个性化的进行设计和修改。
– 注意，这种需求不仅增加了数据处理的复杂度，但会增加存储成本。
– 尽量使用下层提供的安全技术，例如操作系统、数据库等。这些安全解决方案会比你自己设计开发性能要好很多。
本文介绍了各种性能方面的技巧，这些技术性的知道可以作为打造大数据分析平台的一般准则。大数据分析平台非常复杂，为了满足这种类型系统的性能需求，需要我们从开始建设的时候进行考量。
本文介绍的技术准则可以用在大数据平台建设的各个不同阶段，包括安全如何影响大数据分析平台的性能。
via:灯塔大数据
转载请注明来自36大数据（)： &
除非特别注明，本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性，宽容，换位思考的原则。}

叫阿莫西中心