创新中国-中国青年创新战略云服务平台(afc)

海量数据存储、访问与管理

海量数据是当今商业面对的一个现实

随着信息化程度的提高，数据已超出它原始的范畴，它包含各种业务操作数据、报表统计数据、办公文档、电子邮件、超文本、表格、报告以及图片、音视频等各种数据信息。人们用海量数据来形容巨大的、空前浩瀚的、还在不断增长的数据。

海量数据是当今商业面对的一个现实。任何一个企业都在面对其企业数据库由于规模扩大产生的沉重负担，提高海量数据访问能力和业务分析能力的要求也变得越来越迫切。

· 数据爆炸。如今，需要企业进行管理的数据正在以指数级速度增长。分析人员发现，公司收集、存储和分析的有关客户、财务、产品和运营的数据，其增长率达125% 之多。各个方面的因素导致了数据的爆炸，如：网络应用增加了数据的增长速度；监控点击流需要存储与以往相比越来越多的不同的数据类型；多媒体数据也增加了对存储的要求；我们存储并管理的不仅仅是数字和文字，还有视频、音频、图像、临时数据以及更多内容，这些数据的增长速度也在不断地上升；数据仓库和数据挖掘应用鼓励企业存储越来越长的时间段内越来越多的数据。这些实际情况导致的结果就是数据大量增加。

· 法规方面的要求。在会计丑闻的唤醒下，立法者和决策人施加了严格的新要求，几乎影响到全球各家大型企业。法案要求公共公司遵守严格的金融记录保持与报告法规。如果公司不能及时、可靠地访问准确的财务信息，那么它们将面临罚款、调查、起诉、甚至更严厉的股东信心下降的威胁。这要求公司能提供对更多数据的不间断访问能力并进行更多的分析，这必然会延长数据的维护周期，增加数据容量。

· 非结构化数据应用的需要。结构化数据是指诸如企业财务账目、客户信息、业务操作数据等具有明显结构化特性的数据。非结构化数据包括扫描文档图像、传真、照片、计算机生成的报告、字处理文档、电子表格、演示文稿、语音和视频片段等。根据业界分析报告，非结构化数据占有整个信息量的85%以上，数据量及其庞大，是信息资源管理的核心。同样，企业需要对非结构化数据进行存储、检索、过滤、提取、挖掘、分析等各方面应用。

· 历史数据归档与访问的需要。一般来说业务系统是用来处理业务交易的，为了使这些关键业务系统的性能不会受到严重影响，往往业务系统只存放短周期内的业务交易数据，大量的历史数据都被备份到磁带上，或者被转移到其他存储设备上静态保存，当对它们运行sql 查询时再把它们从档案环境中恢复出来。但是随着企业对数据的重要性越来越重视，以及数据分析、数据挖掘的应用逐渐普及，历史数据的访问将变得重要、频繁和直接。历史数据的不断积累，也对海量数据的存储、管理和访问提出了新的需求。

· 数据整合与数据分析的需要。当前，企业信息的存放具有数据结构多元化、存储异构化的特点，企业的数据可能存储在传统系统、大型数据仓库或具有计费、订购、制造、分销或其他功能的数据运营孤岛上，因此会给访问带来极大的困难。数据整合与数据分析已经成为信息管理技术的应用热点。只有在有效的数据整合基础上，才能消除信息孤岛，降低有效信息获取的难度，通过对整合数据的分析和加工来获得制定策略所必需的信息依据。

传统的关系型数据库面临更大的挑战

传统的关系型数据库在计算机数据管理的发展史上是一个重要的里程碑，这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、易于编制应用程序等优点，目前较大的信息系统都是建立在结构化数据库设计之上的。

然而，随着越来越多企业海量数据的产生，特别是internet和intranet技术的发展，使得非结构化数据的应用日趋扩大，以及对海量数据快速访问、有效的备份恢复机制、实时数据分析等等的需求，传统的关系数据库从1970年发展至今，虽功能日趋完善，但在应对海量数据处理上仍有许多不足。

缺乏对海量数据的快速访问能力

当你的竞争对手在周五下午宣布了新的价格体系，你所在机构的总裁在周一早晨之前想要一份对你公司有何影响的分析报告，业务分析员想做的最后一件事情是花费20分钟等待整个表扫描和多表连接来获得“如果……会怎么样”的查询。因为没有经过优化的查询会耗费很长的时间；进行查询的用户，其需求需要按计划执行；多个查询会竞争cpu资源；并且业务需求经常被改变。所有这些都要求不断调整优化数据库或甚至重新设计数据库。

缺乏海量数据访问灵活性

在现实情况中，用户在查询时希望具有极大的灵活性。用户可以提任何问题，可以针对任何数据提问题，可以在任何时间提问题。无论提的是什么问题，都能快速得到回答。传统的数据库不能够提供灵活的解决方法，不能对随机性的查询做出快速响应，因为它需要等待系统管理人员对特殊查询进行调优，这导致很多公司不具备这种快速反应能力。

对非结构化数据处理能力薄弱

传统的关系型数据库对数据类型的处理只局限于数字、字符等，对多媒体信息的处理只是停留在简单的二进制代码文件的存储。然而，随着用户应用需求的提高、硬件技术的发展和intranet/internet提供的多彩的多媒体交流方式，用户对多媒体处理的要求从简单的存储上升为识别、检索和深入加工，因此如何处理占信息总量85%的声音、图像、时间序列信号和视频、e-mail等复杂数据类型，是很多数据库厂家正面临的问题。

海量数据导致存储成本、维护管理成本不断增加

大型企业都面临着业务和it投入的压力，与以往相比，系统的性能/价格比更加受关注。giga研究表明，roi(投资回报率)越来越受到重视。海量数据使得企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资，虽然存储设备的成本在下降，但存储的总体成本却在不断增加，并且正在成为最大的一笔it开支之一。另一方面，海量数据使dba陷入持续的数据库管理维护工作当中。

海量数据缺乏快速备份与灾难恢复机制

传统的数据库备份技术，如通常采用的磁带备份方式，不能运用于海量数据，因为磁带备份将使备份时间增加，需要几小时-几天，不仅影响了生产，而且增加了备份的难度，使得备份/恢复变得缓慢而且不可靠，几乎无法在固定的时间窗口完成备份工作。另外，第三方备份软件隐含的成本代价如成本开销、复杂度、昂贵的实施等也是企业需要考虑的。因此海量数据安全显得异常重要，只有通过引入有效的备份、方便高效的备份恢复技术，才能满足海量数据安全的需要。

sybase提供对vlds的最大支持

专注于信息管理和信息移动技术的企业级软件公司sybase，致力于为客户提供管理企业内部各种复杂海量数据源的解决方案。其一系列的解决方案帮助数据密集型行业对来自于固定或移动数据源的结构化或非结构化的海量数据进行查询和分析，使企业能够更好的管理数据资产并将其转化为切实可用的信息。

世界领先的vlds 引擎- sybase iq

sybase iq采用了成熟的压缩算法，与传统的rdbms 解决方案相比，数据存储量可以减少60～80%。这也就减少了物理存储需求和人员配备成本。经过独立的审核测试确认，存储48t字节的原始输入数据，sybase iq只需要22t的物理存储空间。此外，sybase iq 比传统数据库更容易维护，而且不需要进行与时间和资源相关的调整就可以达到极佳的性能。除了节约成本以外，sybase iq还可以更好地发现和分析信息，从而帮助组织机构防止欺诈、减小风险、发掘新的商机以及获得其他各种好处。

1[][]