无法随着数据量增长基础设施将导致您的数据量出现瓶颈大数据和分析工作量。不可扩展的系统意味着基础设施最终将达到其资源限制。迁移到不同的基础架构是一个复杂且耗时的过程,会产生大量的停机时间和成本。让我们了解如何选择可以与您的分析项目一起扩展的最佳基础架构。
为什么管理大数据工作负载是一个如此复杂的过程?这里有几个原因:
收集数据的方式和数据来源广泛多样
大数据工具通常是专门的
您需要为您的用例选择合适的大数据工具
处理数据会导致安全问题
您需要遵守当地和国际法规
由于硬件和软件限制导致的性能瓶颈
大数据和分析项目的硬件限制
如果您开始遇到性能下降或服务中断,您可能需要检查您的基础架构。您的表现可能缓慢或不稳定的原因有很多:
高 CPU 使用率:大数据项目和分析项目需要高计算能力,以便 CPU 使用率不会达到瓶颈并最终降低性能。
内存不足:没有足够内存来处理摄取负载的服务器可能会完全减慢基础架构的速度,并且需要升级 RAM。
高磁盘 I/O:传统的主轴磁盘在读写速度方面可能不够。
高磁盘使用率:最大化的服务器磁盘可能会导致瓶颈并需要数据扩展。
在运行大数据工作负载时,由于数据量增加的可能性很高,您可能会在 CPU 使用率高、内存不足和磁盘使用率高的情况下运行得更快,并且您的设置可能无法正常运行。许多企业的数据库被他们面临的数据量所淹没,需要扩展。
为什么可扩展性对大数据和分析项目如此重要?
一般来说,大数据基础设施需要快速的网络和提供广泛计算能力的服务器。要运行大数据和分析项目,服务器基础架构需要功能强大并适应您公司的规模,而且还需要足够灵活以适应您的增长路径。
数据呈指数增长,它可能会使您的数据系统过载。数据量的突然变化可能会导致您的设置遇到瓶颈,从而导致停机。没有人想要停机。
您会希望您的数据处理系统随着数据量的增加而增加其处理能力。这意味着系统必须预测数据的指数增长,并且必须处理不断变化的信息流。
扩展解决方案
当您决定扩展时,有两种方法:
向上扩展:这种垂直类型的扩展意味着将您的服务器更换为具有更强大资源(处理器和内存)的更快的服务器。扩展通常是云中的一项功能,因为无法轻松扩展专用服务器(因为移动需要去数据中心手动更改服务器和相当长的停机时间)。但是,还有另一种选择。裸机服务器是一种具有附加功能的专用服务器,可以在需要时从单个 UI 平台进行扩展和缩减,并且停机时间最短。
横向扩展:这种横向扩展意味着使用更多服务器进行并行计算。这被认为是实时分析项目的最佳选择,因为您可以从一开始就为您的用例设计适当的基础架构,并根据需要添加任意数量的服务器。您还可以添加负载均衡器来同时处理摄取请求并在多个服务器之间分配负载。从长远来看,横向可扩展性往往会降低成本。
假设您有一个实时分析项目。也许一开始您每隔几分钟只会收到几个请求,因为您刚刚开始并且没有太多数据需要分析。在某些时候,更多的请求开始进入,您注意到数据库不再正常工作,因为磁盘空间几乎已满,CPU 80% 的时间都在忙,并且 RAM 迅速填满。现在是扩展和升级到更强大的服务器的时候了。只要升级自动进行并且停机时间最短,就像使用裸机服务器一样,您就可以成功。
随着时间的推移,您的业务开始越来越多,并且您开始每分钟收到几百个请求。现在是扩大规模的时候了。比方说,你有 20 台具有相同数据库模式的机器,每台机器只保存一部分数据,它们以这样的方式连接(这里的设计是可定制的,取决于你的用例),让你的系统可以完美地工作并且正确管理和实时分析数据。Hadoop 提供的水平可扩展性对于具有大数据存储、管理和分析需求的企业来说是一个需要考虑的强项,例如在这种情况下。MongoDB 还通过使用分片来支持水平可扩展性(通过将数据分配到物理分区来自动将数据平衡到集群中)。
使用哪种基础设施?
虽然公共云以其可扩展性功能而闻名,但在云中运行大数据和分析工作负载是一个很大的禁忌。物理机(例如专用服务器或裸机服务器)的性能几乎总是优于虚拟化解决方案(例如公共云),尤其是在讨论实时数据摄取时。在大数据项目中需要分析的大量数据可能会在云中遇到更多的瓶颈,并带来比在专用机器(例如裸机服务器)上更多的成本。
裸机服务器提供专用机器的强大功能以及云的灵活性和可扩展性,这对于实时分析、大数据、预测分析、机器学习和数据科学来说非常必要。由于裸机服务器的性能和第 2 层网络的速度,您可以设置所需的强大基础架构,并且仍然受益于横向和纵向的可扩展性。
相关帖子DA内容精选
|


雷达卡



京公网安备 11010802022788号







