1,容量方面还可以试试看有pNFS可以并行提供nfs服务,这比较好简便。
2和3的问题原因是一样的,因为文件数目过多,百万级别以上rsync软件或者专业的同步软件如英方都会遇到瓶颈,因为文件系统清单的瓶颈。海量小文件的确是一个难点,你可以看一下你们的nas server端 nfsstat,看看directorylist操作数占了所有操作数中的百分比。超过15%以上基本上都会遇到这个问题。现有厂商能解决海量文件同步问题的只有netapp的snapmirror,他是基于存储底层校验、同步文件。因为不读文件分区表,所以速度很快,我这里500万小文件共计3T,全同步约4小时,同步速度可以在600MB/s以上。就你的问题1和2来说,我的建议是用netapp的nas存储解决。
另外还有一些“免费的”优化方式简单的可以试试 打包历史数据、采用更多级目录,应用端维护文件清单进行文件访问(减少目录索引次数),使用数据库存储对象等。 有一定效果,不治本,但是对现有架构改动较小。
针对问题3,现有的技术解决方案是对象存储,很多公司会自己维护一套系统来进行小文件存储,国内新浪、七牛做的比较好,可以自己搜索下。现在事实上的标准应该是亚马逊的S3,ceph似乎已死。除开源产品不说(要有心思钻研,要投入较强的技术力量),现有的比较成熟的商业产品有ibm的cleversafe(收购的),emc的ecs(也是收购的。)还有netapp的storagegrid,还有华为的N9000(这个没有软件版)
本论坛ibm推的东西比较多,多说一句cleversafe有软件版本,可以自己下镜像部署在服务器或vmware上,可以免费poc,建议试试看。