千家信息网

Ceph Jewel版本三副本写操作的示例分析

发表于:2024-11-20 作者:千家信息网编辑
千家信息网最后更新 2024年11月20日,小编给大家分享一下Ceph Jewel版本三副本写操作的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!一、主OSD写处理流程OSD::ms_fast_dispatch()|_
千家信息网最后更新 2024年11月20日Ceph Jewel版本三副本写操作的示例分析

小编给大家分享一下Ceph Jewel版本三副本写操作的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!

一、主OSD写处理流程

OSD::ms_fast_dispatch()

|__OSD::dispatch_session_waiting()

|__OSD::dispatch_op_fast()

|__OSD::handle_op()

|__OSD::get_pg_or_queue_for_pg() 找到OpRequest中对应的PG和Pool信息

|__OSD::enqueue_op()

|__PG::queue_op()

|__OSD::ShardedThreadPool::ShardedWQ::queue() 将PG和Op一起放入队列中

OSD::ShardedOpWQ::_process() 负责处理OSD::ShardedThreadPool::ShardedWQ队列中的Op

|__PGQueueable::RunVis::operator()(const OpRequestRef &op)

|__OSD::dequeue_op()

|__ReplicatedPG::do_request()

|__检查当前PG是否处于flush或peering状态,若是则将op放入waiting_for_peered队列中等待PG变成可用状态

|__检查当前PG是否处于Active状态,若不是则将op放入waiting_for_active队列中

|__检查当前PG是否处于REPLAY状态,若是则将op放入waiting_for_active队列中

|__ReplicatedPG::do_op()

|__RepliatedPG::do_pg_op() 对于请求中包含对PG的操作CEPH_OSD_RMW_FLAG_PGOP

|__根据op请求创建hobject_t类对象(head)

|__检查对象名字长度/对象locator key长度/对象locator名称空间长度是否大于osd_max_object_name_len

|__通过FileStore检查object的head是否有效

|__检查op请求地址是否在OSDMap的blacklist中

|__对于写请求,检查写请求的数据大小是否大于osd_max_write_size值

|__对于op请求的head目前不可读,则将op放入waiting_for_unreadable_object队列中且调用maybe_kick_recovery()函数尝试启动recovery

|__ReplicatedPG::is_degraded_or_backfilling_object() 检查当前op请求的head是否处于recovery或backfill状态

|__ReplicatedPG::wait_for_degraded_object() 将当前op请求的head放入waiting_for_degraded_object队列中

|__检查head是否在objects_blocked_on_degraded_snap队列中,若是则将当前op请求的head放入waiting_for_degraded_object队列中

|__检查head是否在objects_blocked_on_snap_promotion队列中,若是则将当前op请求的head放入waiting_for_blocked_object队列中

|__检查head是否在objects_blocked_on_cache_full队列中,若是则将当前op请求的head放入waiting_for_cache_not_full队列中

|__检查head的snapdir是否不可读,若是则将head的snapdir放入waiting_for_unreadable_object队列中且调用maybe_kick_recovery()函数尝试启动recovery

|__检查head的snapdir是否处于recovery或backfill状态,若是则将head的snapdir放入waiting_for_degraded_object队列中

|__对于op写请求已经在PGLog中,则若已经完成了写操作则直接给客户端返回MOSDOpReply消息且设置CEPH_OSD_FLAG_ACK,否则将op放入到waiting_for_ack或waiting_for_ondisk队列中

|__ReplicatedPG::find_object_context() 得到object context信息

|__检查object context是否处于io blocked状态,若是则将op请求放入到waiting_for_blocked_object或waiting_for_degraded_object队列中

|__ReplicatedPG::execute_ctx()

|__ReplicatedPG::prepare_transaction()

|__创建MOSDOpReply消息实例

|__ReplicatedPG::calc_trim_to() 计算trim PGLog

|__ReplicatedPG::register_on_applied() 注册on_applied回调处理函数,对于op请求需要ack且此时没有向客户端发送过sent_ack或sent_disk,则创建MOSDOpReply消息且在消息上添加CEPH_OSD_FLAG_ACK标识后将MOSDOpReply消息发送给客户端

|__ReplicatedPG::register_on_commit() 注册on_committed回调处理函数, 对于op请求需要ack且此时没有向客户端发送过sent_disk,则创建MOSDOpReply消息且在消息上添加CEPH_OSD_FLAG_ACK和CEPH_OSD_FLAG_ONDISK标识后将MOSDOpReply消息发送给客户端

|__ReplicatedPG::register_on_success() 注册on_success回调处理函数

|__ReplicatedPG::register_on_finish() 注册on_finish回调处理函数

|__ReplicatedPG::new_repop() 创建RepGather类对象

|__ReplicatedPG::issue_repop()

|__创建C_OSD_RepopCommit类对象,即:所有副本都完成commit后的回调函数类,在该函数中设置repop->all_committed=true,最后调用ReplicatedPG::eval_repop()

|__创建C_OSD_RepopApplied类对象,即:所有副本都完成applied后的回调函数类,在该函数中设置repop->all_applied=true,最后调用ReplicatedPG::eval_repop()

|__ReplicatedBackend::submit_transaction()

|__ReplicatedBackend::issue_op()

|__ReplicatedBackend::generate_subop() 创建MOSDRepOp消息类对象

|__ReplicatedPG::send_message_osd_cluster()

|__OSD::send_message_osd_cluster() 将MOSDRepOp消息发送给副本所在的OSDs节点

|__创建C_OSD_OnOpApplied类对象,用来处理本地applied完成后的回调函数类

|__创建C_OSD_OnOpCommit类对象,用来处理本地commit完成后的回调函数类

|__RepliatedPG::queue_transactions()

|__ObjectStore::queue_transactions()

|__FileStore::queue_transactions()

|__JournalingObjectStore::_op_journal_tranactions()

|__FileJournal::submit_entry() 将写日志请求提交到日志任务队列中,日志写完后回调C_JournaledAhead类对象

|__ReplicatedPG::eval_repop()

|__检查repop->rep_done是否完成

|__检查repop->all_commit,即:是否所有副本都完成日志写入,若完成则回调on_committed()回调函数

|__检查repop->all_applied,即:是否所有副本都完成落盘,若完成则回调on_applied()回调函数

|__检查repop->all_commit和repop->all_applied,即:是否所有副本都完成写入操作,若完成则调用repop->on_success()回调函数

本地写日志完成后的处理流程

C_JournaledAhead::finish()

|__FileStore::_journaled_ahead()

|__FileStore::queue_op() 将写请求放入到FileStore的op_wq队列中

|__回调C_OSD_OnOpCommit类对象的处理函数

本地数据落盘处理流程

FileStore::_do_op()

|__从op_wq队列中读取写请求

|__FileStore::_do_transactions() 执行实际的写数据操作

本地数据落完完成后的处理流程

FileStore::_finish_op()

|__回调C_OSD_OnOpApplied类对象的处理函数

二、副本OSD处理主OSD发送过来的写请求(消息是MOSDRepOp,消息类型是MSG_OSD_REPOP)

OSD::ms_fast_dispatch()

|__OSD::dispatch_session_waiting()

|__OSD::dispatch_op_fast()

|__OSD::handle_replica_op()

|__检查发送方有效性

|__OSD::get_pg_or_queue_for_pg() 找到OpRequest中对应的PG和Pool信息

|__OSD::enqueue_op()

|__PG::queue_op()

|__OSD::ShardedThreadPool::ShardedWQ::queue() 将PG和Op一起放入队列中

OSD::ShardedOpWQ::_process() 负责处理OSD::ShardedThreadPool::ShardedWQ队列中的Op

|__PGQueueable::RunVis::operator()(const OpRequestRef &op)

|__OSD::dequeue_op()

|__ReplicatedPG::do_request()

|__ReplicatedBackend::handle_message()

|__ReplicatedBackend::sub_op_modify()

|__ReplicatedPG::log_operation()

|__PG::append_log() 写PGLog

|__创建C_OSD_RepModifyCommit类实例,用于处理日志commit完成后的回调处理

|__创建C_OSD_RepModifyApply类实例,用于处理数据落盘完成后的回调处理

|__ReplicatedPG::queue_transactions()

|__FileStore::queue_transactions()

|__JournalingObjectStore::_op_journal_tranactions()

|__FileJournal::submit_entry() 将写日志请求提交到日志任务队列中,日志写完后回调C_JournaledAhead类对象

本地写日志完成后的处理流程

C_JournaledAhead::finish()

|__FileStore::_journaled_ahead()

|__FileStore::queue_op() 将写请求放入到FileStore的op_wq队列中

|__回调C_OSD_RepModifyCommit类对象的处理函数

本地数据落盘处理流程

FileStore::_do_op()

|__从op_wq队列中读取写请求

|__FileStore::_do_transactions() 执行实际的写数据操作

本地数据落完完成后的处理流程

FileStore::_finish_op()

|__回调C_OSD_RepModifyApply类对象的处理函数

三、主OSD处理副本OSDs发送过来的MOSDRepOpReply消息处理流程(消息类型MSG_OSD_REPOPREPLY)

OSD::ms_fast_dispatch()

|__OSD::dispatch_session_waiting()

|__OSD::dispatch_op_fast()

|__OSD::handle_replica_op()

|__检查发送方有效性

|__OSD::get_pg_or_queue_for_pg() 找到OpRequest中对应的PG和Pool信息

|__OSD::enqueue_op()

|__PG::queue_op()

|__OSD::ShardedThreadPool::ShardedWQ::queue() 将PG和Op一起放入队列中

OSD::ShardedOpWQ::_process() 负责处理OSD::ShardedThreadPool::ShardedWQ队列中的Op

|__PGQueueable::RunVis::operator()(const OpRequestRef &op)

|__OSD::dequeue_op()

|__ReplicatedPG::do_request()

|__ReplicatedBackend::handle_message()

|__ReplicatedBackend::sub_op_modify_reply()

|__对于设置了CEPH_OSD_FLAG_ONDISK标识的消息来说,删除waiting_for_commit队列中对应的OSD ID

|__删除waiting_for_applied队列中对应的OSD ID

|__对于waiting_for_commit队列为空,则调用C_OSD_RepopCommit类对象的回调函数

|__对于waiting_for_applied队列为空,则调用C_OSD_RepopApplied类对象的回调函数

四、回调函数类处理

C_OSD_RepModifyCommit类处理流程

C_OSD_RepModifyCommit::finish()

|__ReplicatedBackend::sub_op_modify_commit()

|__创建MOSDRepOpReply消息且设置CEPH_OSD_FLAG_ONDISK标识

|__ReplicatedPG::send_message_osd_cluster()

|__OSD::send_message_osd_cluster() 将MOSDRepOpReply消息发送回主OSD

C_OSD_RepModifyApply类处理流程

C_OSD_RepModifyApply::finish()

|__ReplicatedBackend::sub_op_modify_applied()

|__创建MOSDRepOpReply消息且设置CEPH_OSD_FLAG_ACK标识(针对没有进行日志处理的情况)

|__ReplicatedPG::send_message_osd_cluster()

|__OSD::send_message_osd_cluster() 将MOSDRepOpReply消息发送回主OSD

C_OSD_OnOpCommit处理流程

C_OSD_OnOpCommit::finish()

|__ReplicatedBackend::op_commit()

|__删除waiting_for_commit数组中对应OSD ID信息

|__检查waiting_for_commit数组是否为空,若为空则调用C_OSD_RepopCommit类对象的回调函数

C_OSD_OnOpApplied处理流程

C_OSD_OnOpApplied::finish()

|__ReplicatedBackend::op_applied()

|__删除waiting_for_applied数组中对应OSD ID信息

|__检查waiting_for_applied数组是否为空,若为空则调用C_OSD_RepopApplied类对象的回调函数

看完了这篇文章,相信你对"Ceph Jewel版本三副本写操作的示例分析"有了一定的了解,如果想了解更多相关知识,欢迎关注行业资讯频道,感谢各位的阅读!

0