非结构化超大文件存储远端通过网络传输一定是相对慢，实际生产环境对应此场景的技术架构如何实践?

非结构化超大文件存诸远端通过网络传输一定是相对慢，大家实际生产环境对应以场昌的技术架构如何实践，一处上传，读场景多级缓存?

参与7

2同行回答
全部行业
全部行业 互联网服务 IT其它
|
按赞同排序
按时间排序

Eric雪飞存储专委副主任上海市计算机学会

超大文件的一处上传多处更新问题，不妨考虑借鉴下CDN技术。最早视频网站像PPTV爱奇艺啥的早期用得多，解决的就是节目上新，各地IDC都能低延迟提供视频点播服务。有的技术能力强点，基本上是考虑P2P技术基础上自己写模块，有的就直接找专业CDN厂商了，省力多了。

这种问题的解决方案和数据特征相关，例如数据总量，文件重复率，可压缩程度等。非结构化数据量一般都不小，通常情况大都是视频图片，压缩图片可能还有点效果，视频一般都压缩过了，没啥大作用。在存储系统内部机制去解决其实不是个好思路，太复杂，效果也不一定好，还容易引入新问题，还是在文件层和应用层解决比较好。

如果自身技术能力强，可以考虑在上层搭建一套数据同步应用软件，可以判断文件重复度，如果用备份软件的远程同步功能改造，还能提供增量数据处理机制，减少传输量。

如果数据量实在太大，同城数据中心或者不是太远的两地三中心，网络带宽又真的不给力，不妨考虑参考下AWS的Snowball思路：移动硬盘发快递!! 毕竟能真正解决问题就是好方案：）

收起

IT其它 · 2023-09-24

查看赞同的人

wenwen123项目经理MM

在处理非结构化超大文件存储和传输的场景中，可以采用以下技术架构来实践一次上传、多级缓存的读取场景：

分布式存储系统：使用分布式存储系统（如Hadoop HDFS、Ceph等）来存储大文件。这样可以将文件分割成较小的块并在多个节点上进行分布式存储，提高数据的可靠性和可扩展性。
网络传输优化：使用网络传输优化技术来提高大文件的传输效率。例如，可以使用压缩算法对文件进行压缩，在传输过程中减少数据量。此外，使用并行传输和多线程技术可以加快文件的上传和下载速度。
分级缓存：在多级缓存中使用不同层次的存储设备来提供快速的读取访问。可以采用以下缓存层次结构：
- 本地缓存：在客户端或应用服务器上设置本地缓存，将最常用的文件块或数据缓存在本地磁盘上。这样可以减少对远程服务器的访问，并提供快速的读取响应。
- 分布式缓存：使用分布式缓存系统（如Redis、Memcached等）将常用的文件块或数据缓存在内存中。分布式缓存可以通过多个节点提供高可用性和性能。
- 远程存储：在分布式存储系统中保留完整的文件副本，作为持久性的远程存储。这样可以确保文件的可靠性和长期保存。
数据预取和预加载：根据访问模式和用户行为，使用预取和预加载技术来提前获取可能需要的数据块或文件片段。通过预加载，可以将数据提前存储在缓存中，以提供更快的读取响应时间。
数据分片和分布式计算：针对超大文件，可以将其分割成较小的数据块，并在分布式计算环境中进行并行处理。这样可以加速对文件的读取和处理过程。

需要根据具体场景和需求来选择适当的技术架构，并考虑数据的安全性和隐私保护。同时，对于大规模文件存储和传输，还应该进行性能测试和优化，以确保系统能够满足预期的性能要求。

收起

互联网服务 · 2023-07-12

查看赞同的人

ChatGPT 回答

针对非结构化超大文件存储和传输的问题，银行行业可以采用以下技术架构实践：

对于非结构化数据存储，可以采用分布式文件系统，如Hadoop HDFS、Ceph等，以实现数据的高可靠性和可扩展性。
对于超大文件的传输，可以采用分块传输和断点续传技术，将大文件分成多个小块进行传输，同时支持断点续传，以提高传输效率和稳定性。
在上传和读取场景中，可以采用多级缓存技术，将数据缓存在本地或者中间节点上，以减少网络传输的次数和数据传输的时间，提高数据读取和上传的效率。
可以采用CDN技术，将数据缓存在离用户最近的节点上，以提高数据的访问速度和稳定性。

总之，银行行业可以采用分布式文件系统、分块传输、断点续传、多级缓存和CDN等技术，来解决非结构化超大文件存储和传输的问题，提高数据的可靠性、可扩展性和访问效率。

非结构化超大文件存储远端通过网络传输一定是相对慢，实际生产环境对应此场景的技术架构如何实践?

2同行回答
全部行业
全部行业 互联网服务 IT其它
|
按赞同排序
按时间排序

ChatGPT 回答

问题来自

相关问题

相关资料

相关文章

问题状态

非结构化超大文件存储远端通过网络传输一定是相对慢，实际生产环境对应此场景的技术架构如何实践?

2同行回答全部行业全部行业互联网服务IT其它|按赞同排序按时间排序

ChatGPT 回答

问题来自

相关问题

相关资料

相关文章

问题状态

2同行回答
全部行业
全部行业互联网服务 IT其它
|
按赞同排序
按时间排序