Fastdfs文件同步机制（同组内的storage同步）

2023-10-03 22:42:31

文章目录

一、fastdfs文件系统原理
二、同步时间管理
三、Binlog文件
四、Storage server具体同步过程

一、fastdfs文件系统原理

同组内的storage server之间是对等的，文件上传、删除等操作可以在任意⼀台storage server上进行。文件同步只在同组内的storage server之间进⾏ 下面我们看fastdfs文件系统开发者是怎么描述同步机制的（来源于chinaunix）：
tracker server的配置文件中没有出现storage server，而storage server的配置文件中会列举出所有的tracker server。
在这里插入图片描述

这就决定了storage server和tracker server之间的连接由storage server主动发起，storage server为每个tracker server启动一个线程进行连接和通讯。

tracker server会在内存中保存storage分组及各个组下的storage server，并将连接过自己的storage server及其分组保存到文件中，以便下次重启服务时能直接从本地磁盘中获得storage相关信息。storage server会在内存中记录本组的所有服务器，并将服务器信息记录到文件中。（对于tracker和storage存储信息不了解的，看下storage和tracker目录结构便知，这篇文章有介绍）

tracker server和storage server之间相互同步storage server列表：

如果一个组内增加了新的storage server或者storage server的状态发生了改变，tracker server都会将storage server列表同步给该组内的所有storage server。以新增storage server为例，因为新加入的storage server主动连接tracker server，tracker server发现有新的storage server加入，就会将该组内所有的storage server返回给新加入的storage server，并重新将该组的storage server列表返回给该组内的其他storage server；
直接说可能不好理解，看下图便知（C为新增的storage server）：
如果新增加一台tracker server，storage server连接该tracker server，发现该tracker server返回的本组storage server列表比本机记录的要少，就会将该tracker server上没有的storage server同步给该tracker server。
同一组内的storage server之间是对等的，文件上传、删除等操作可以在任意一台storage server上进行。**文件同步只在同组内的storage server之间进行，采用push方式，即源服务器同步给目标服务器。**以文件上传为例，假设一个组内有3台storage server A、B和C，文件F上传到服务器B，由B将文件F同步到其余的两台服务器A和C。我们不妨把文件F上传到服务器B的操作为源头操作，在服务器B上的F文件为源头数据；文件F被同步到服务器A和C的操作为备份操作，在A和C上的F文件为备份数据。同步规则总结如下：
（1）只在本组内的storage server之间进行同步；
（2）源头数据才需要同步，备份数据不需要再次同步，否则就构成环路了；
避免循环推送的方式，源、副本信息的操作对binlog的标记是不一样的，比如大写标记源—>要推送给其他storage，小写标记副本—>不用推送个其他storage

（3）上述第二条规则有个例外，就是新增加一台storage server时，由已有的一台storage server将已有的所有数据（包括源头数据和备份数据）同步给该新增服务器；

storage server有7个状态，如下：

  # FDFS_STORAGE_STATUS_INIT      :初始化，尚未得到同步已有数据的源服务器# FDFS_STORAGE_STATUS_WAIT_SYNC :等待同步，已得到同步已有数据的源服务器# FDFS_STORAGE_STATUS_SYNCING   :同步中# FDFS_STORAGE_STATUS_DELETED   :已删除，该服务器从本组中摘除（注：本状态的功能尚未实现）# FDFS_STORAGE_STATUS_OFFLINE   :离线# FDFS_STORAGE_STATUS_ONLINE    :在线，尚不能提供服务# FDFS_STORAGE_STATUS_ACTIVE    :在线，可以提供服务

当storage server的状态为FDFS_STORAGE_STATUS_ONLINE（在线，尚不能提供服务）时，当该storage server向tracker server发起一次heart beat时，tracker server将其状态更改为FDFS_STORAGE_STATUS_ACTIVE。（当storage处于active状态时，默认30秒一次向tracker发送一次心跳）。
例如，上面的storage C同步完数据后，就会向tracker发送心跳（heart beat）
在这里插入图片描述

组内新增加一台storage server A时，由系统自动完成已有数据同步，处理逻辑如下：

storage server A连接tracker server，tracker server将storage server A的状态设置为FDFS_STORAGE_STATUS_INIT（初始化，尚未得到同步已有数据的源服务器）。
storage server A询问追加同步的源服务器和追加同步截至时间点，如果该组内只有storage server A或该组内已成功上传的文件数为0，则没有数据需要同步，storage server A就可以提供在线服务，此时tracker将其状态设置为FDFS_STORAGE_STATUS_ONLINE，否则tracker server将其状态设置为FDFS_STORAGE_STATUS_WAIT_SYNC，进入第二步的处理；
假设tracker server分配向storage server A同步的已有数据的源storage server为B。同组的storage server和tracker server通讯得知新增了storage server A，将启动同步线程，并向tracker server询问向storage server A追加同步的源服务器和截至时间点。
storage server B将把截至时间点之前的所有数据同步给storage server A；（全量同步） 而其余的storage server从截至时间点之后进行正常同步**（增量同步）**，只把源头数据同步给storage server A。到了截至时间点之后，storage server B对storage server A的同步将由追加同步切换为正常同步，只同步源头数据；
storage server B向storage server A同步完所有数据，暂时没有数据要同步时，storage server B请求tracker server将storage server A的状态设置为FDFS_STORAGE_STATUS_ONLINE；
当storage server A向tracker server发起heart beat时，tracker server将其状态更改为FDFS_STORAGE_STATUS_ACTIVE。

（注意此时有种情况： 本来有两台storage server分别为A和B，此时新增一台C，此时A作为了源服务器，进行同步。此时又新增了一台D，此时还会是A作源服务器吗。答案是不会的，B将作为源服务器。因为A已经往C同步，读能力，带宽能力有限制）
流程如下：
在这里插入图片描述

二、同步时间管理

从上面了解了fastdfs文件系统中组内的多个storage server之间同步的机制，那文件同步是什么时候进行呢？是文件上传成功后，其它的storage server才开始同步，其它的storage server怎么去感知，tracker server是怎么通知storage server呢？

在这里插入图片描述
当一个文件上传成功后，客户端马上发起对该文件下载请求（或删除请求）时，tracker是如何选定一个适用的存储服务器呢？

其实每个存储服务器都需要定时将自身的信息上报给tracker，这些信息就包括了本地同步时间（即，同步到的最新文件的时间戳）。

而tracker根据各个存储服务器的上报情况，就能够知道刚刚上传的文件，在该存储组中是否已完成了同步。在storage server中这些信息是以Binlog文件的形式存在的。

三、Binlog文件

当Storaged server启动时会创建一个 base_path/data/sync 同步目录，该目录中的文件都是和同组内的其它 Storaged server之间的同步状态文件，如192.168.1.2_33450.mark 192.168.1.3_33450.mark binlog.100（binlog.index）；

192.168.1.2_33450.mark 192.168.1.3_33450.mark binlog.000 binlog.index

binlog.index 记录当前使用的Binlog文件序号，如为10，则表示使用binlog.010
binlog.100真实地Binlog文件
192.168.1.2_33450.mark 同步状态文件，记录本机到192.168.1.2_33450的同步状态

在Mark文件中内容：由binlog_index和binlog_offset两项组成，以192.168.1.2_33450.mark为例其中binlog_index表示上次同步192.168.1.2机器的最后一条binlog文件索引，binlog_offset表示上次同步192.168.1.2机器的最后一条binlog偏移量，如果程序重启了，也只要从这个位置开始向后同步。

Binlog文件内容：在该文件中是以binlog日志组成，比如

1470292943 c M00/03/61/QkIPAFdQCL-AQb_4AAIAi4iqLzk223.jpg1470292948 C M00/03/63/QkIPAFdWPUCAfiraAAG93gO_2Ew311.png1470292954 d M00/03/62/QkIPAFdWOyeAO3eUAABvALuMG64183.jpg1470292959 C M00/01/23/QUIPAFdVQZ2AL_o-AAAMRBAMk3s679.jpg1470292964 c M00/03/62/QkIPAFdVOsCAcxeQAAGTdbQsdVs062.jpg1470292969 c M00/03/62/QkIPAFdVOnKAXu1NAABq9pkfsms63.jpeg1470293326 D M00/03/62/QkIPAFdVMnGAZYSZAABq9pkfsms33.jpeg

其中的每一条记录都是使用空格符分成三个字段，分别为：
第一个字段表示文件upload时间戳如：1470292943
第二个字段表示文件执行操作
第三个字段表示文件如M00/03/61/QkIPAFdQCL-AQb_4AAIAi4iqLzk223.jpg

四、Storage server具体同步过程

从fastdfs文件同步原理中我们知道Storaged server之间的同步都是由一个独立线程负责的，这个线程中的所有操作都是以同步方式执行的。比如一组服务器有A、B、C三台机器，那么在每台机器上都有两个线程负责同步，如A机器，线程1负责同步数据到B，线程2负责同步数据到C。每个同步线程负责到一台Storage的同步，以阻塞方式进行。

以IP为192.168.1.1的Storaged severe的服务器为例，它的同步目录下有192.168.1.2_33450.mark 192.168.1.3_33450.mark binlog.100等文件现在Storaged severe将会从ip为192.168.1.2的Storaged severe的存储里面同步数据。

（1）打开对应Storage server的mark文件，如负责到192.168.1.1的同步则打开192.168.1.2_33450.mark 文件，从中读取binlog_index、binlog_offset两个字段值，如取到值为：100、1000，那么就打开binlog.100文件，seek到1000这个位置。
（2）进入一个while循环，尝试着读取一行，若读取不到则睡眠等待。若读取到一行，并且该行的操作方式为源操作，如C、A、D、T（大写的都是），则将该行指定的操作同步给对方 （非源操作不需要同步） ，同步成功后更新binlog_offset标志，该值会定期写入到192.168.1.2_33450.mark文件之中。

同步过程中可能因为同步较为缓慢，导致可能在同步一个文件之前，文件已经被客户端删除，此时同步线程将打印一条日志，然后直接处理后面的Binlog。

流程如下：
在这里插入图片描述
检测文件是否被删除的原因： 可能是人为误删了同步信息storage_stat.dat但是文件确实存在的，这里检测直接到对应目录下检测。如果是真的误删了同步信息，则其他storage中也要删除相应的mark文件。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > codecademy里能学好php,神站推荐：Codecademy！轻松圆你的编程梦
下一篇 > 监听storage改变

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce