[LU-15938] MDT recovery did not finish due to corrupt llog record - Whamcloud Community JIRA

Details

Type: Bug
Resolution: Fixed
Priority: Minor
Fix Version/s: Lustre 2.16.0
Affects Version/s: Lustre 2.14.0
Labels:
- llog

Severity:
3
Rank (Obsolete):
9223372036854775807

Description

A broken DNE recovery llog record was preventing MDT-MDT recovery from completing. MDT0003 was permanently unable to finish recovery with MDT0019, looping on:

llog_process_thread()) lfs02-MDT0019-osp-MDT0003 retry remote llog process

There was a bad record in the llog file, and the recovery would process the llog (all but one other record had successfully been cancelled) and then hit a bad record and abort, then retry.

Since the DNE recovery llog for MDT0003 is stored on MDT0019, this necessitated "fixing" the llog file on MDT0019 by truncating it to zero bytes and which allowed MDT0003 recovery to finish.

Retrying recovery can be useful in some cases, if the remote MDT is inaccessible, but if there is a single bad record it makes sense to only retry once (in case the llog was in the middle of being written) and then cancel this record and continue with the rest of recovery, or at worst abort recovery with that MDT and cancel the whole llog file. Otherwise, this needs manual intervention to recover from this situation, which can't do better than cancelling the llog record (pending LU-15937) or delete the whole llog file.

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending
- Thumbnails
- List
- Download All

2022-06-12_15-24-23__DDN-3093_shalustre-lfs02-n26_mdt0019_mdt0003_update_log
8.85 MB
12/Jun/22 4:02 PM

Issue Links

is related to

LU-18570 conf-sanity test_135: failed Is changelog reader stuck

Open

LU-16203 zero records and empty plain llogs in update llog catalog

Resolved

LU-16052 conf-sanity test_106: crash after osp_sync_process_queues failed: -53

Resolved

is related to

LU-15937 lctl llog commands do not work for DNE recovery logs

Open

LU-15761 cannot finish MDS recovery

Resolved

LU-15645 gap in recovery llog should not be a fatal error

Resolved

LU-15934 client refused mount with -EAGAIN because of missing MDT-MDT llog connection

Resolved

LU-15139 sanity test_160h: dt_record_write() ASSERTION( dt->do_body_ops->dbo_write ) failed

Resolved

(3 is related to )

Activity

[LU-15938] MDT recovery did not finish due to corrupt llog record

Gerrit Updater added a comment - 27/Feb/24 5:47 AM

"Oleg Drokin <green@whamcloud.com>" merged in patch https://review.whamcloud.com/c/fs/lustre-release/+/48310/
Subject: ~~LU-15938~~ llog: llog_reader to detect more corruptions
Project: fs/lustre-release
Branch: b2_12
Current Patch Set:
Commit: 1fa6738b6dd56660058cb146629f0d23e36cdc1d

Gerrit Updater added a comment - 27/Feb/24 5:47 AM "Oleg Drokin <green@whamcloud.com>" merged in patch https://review.whamcloud.com/c/fs/lustre-release/+/48310/ Subject: LU-15938 llog: llog_reader to detect more corruptions Project: fs/lustre-release Branch: b2_12 Current Patch Set: Commit: 1fa6738b6dd56660058cb146629f0d23e36cdc1d

Gerrit Updater added a comment - 05/Jun/23 4:11 PM

"Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/c/fs/lustre-release/+/51220
Subject: ~~LU-15938~~ llog: more checks in llog_reader
Project: fs/lustre-release
Branch: b2_15
Current Patch Set: 1
Commit: a0d25b76f6d41e164536a1c1cd46d503338643e7

Gerrit Updater added a comment - 05/Jun/23 4:11 PM "Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/c/fs/lustre-release/+/51220 Subject: LU-15938 llog: more checks in llog_reader Project: fs/lustre-release Branch: b2_15 Current Patch Set: 1 Commit: a0d25b76f6d41e164536a1c1cd46d503338643e7

Gerrit Updater added a comment - 05/Jun/23 4:11 PM

"Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/c/fs/lustre-release/+/51218
Subject: ~~LU-15938~~ llog: llog_reader to detect more corruptions
Project: fs/lustre-release
Branch: b2_15
Current Patch Set: 1
Commit: e43bf0086e8f80f128cf868b5dca6079872f6a62

Gerrit Updater added a comment - 05/Jun/23 4:11 PM "Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/c/fs/lustre-release/+/51218 Subject: LU-15938 llog: llog_reader to detect more corruptions Project: fs/lustre-release Branch: b2_15 Current Patch Set: 1 Commit: e43bf0086e8f80f128cf868b5dca6079872f6a62

Gerrit Updater added a comment - 05/Jun/23 4:11 PM

"Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/c/fs/lustre-release/+/51217
Subject: ~~LU-15938~~ lod: prevent endless retry in recovery thread
Project: fs/lustre-release
Branch: b2_15
Current Patch Set: 1
Commit: d66b517c9207dae3dd6da75266e78e50dfbc3f93

Gerrit Updater added a comment - 05/Jun/23 4:11 PM "Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/c/fs/lustre-release/+/51217 Subject: LU-15938 lod: prevent endless retry in recovery thread Project: fs/lustre-release Branch: b2_15 Current Patch Set: 1 Commit: d66b517c9207dae3dd6da75266e78e50dfbc3f93

Peter Jones added a comment - 08/Dec/22 12:14 AM

All patches seem to have merged for 2.16

Peter Jones added a comment - 08/Dec/22 12:14 AM All patches seem to have merged for 2.16

Gerrit Updater added a comment - 22/Nov/22 4:22 AM

"Oleg Drokin <green@whamcloud.com>" merged in patch https://review.whamcloud.com/c/fs/lustre-release/+/48112/
Subject: ~~LU-15938~~ llog: more checks in llog_reader
Project: fs/lustre-release
Branch: master
Current Patch Set:
Commit: 386ffcdbb4c9b89f798de4c83a51a3f020542c8b

Gerrit Updater added a comment - 22/Nov/22 4:22 AM "Oleg Drokin <green@whamcloud.com>" merged in patch https://review.whamcloud.com/c/fs/lustre-release/+/48112/ Subject: LU-15938 llog: more checks in llog_reader Project: fs/lustre-release Branch: master Current Patch Set: Commit: 386ffcdbb4c9b89f798de4c83a51a3f020542c8b

Gerrit Updater added a comment - 25/Aug/22 4:11 PM

"Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/48341
Subject: ~~LU-15938~~ llog: Fix chunk re-read case in llog_process_thread
Project: fs/lustre-release
Branch: master
Current Patch Set: 1
Commit: a7015dccd3e960516c95510663626f075191d4bd

Gerrit Updater added a comment - 25/Aug/22 4:11 PM "Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/48341 Subject: LU-15938 llog: Fix chunk re-read case in llog_process_thread Project: fs/lustre-release Branch: master Current Patch Set: 1 Commit: a7015dccd3e960516c95510663626f075191d4bd

Gerrit Updater added a comment - 23/Aug/22 9:29 AM

"Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/48310
Subject: ~~LU-15938~~ llog: llog_reader to detect more corruptions
Project: fs/lustre-release
Branch: b2_12
Current Patch Set: 1
Commit: 02ea0e325eabc57d95051e79ffe1cc87c2243ced

Gerrit Updater added a comment - 23/Aug/22 9:29 AM "Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/48310 Subject: LU-15938 llog: llog_reader to detect more corruptions Project: fs/lustre-release Branch: b2_12 Current Patch Set: 1 Commit: 02ea0e325eabc57d95051e79ffe1cc87c2243ced

Gerrit Updater added a comment - 22/Aug/22 2:57 PM

"Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/48286
Subject: ~~LU-15938~~ lod: prevent endless retry in recovery thread
Project: fs/lustre-release
Branch: b2_12
Current Patch Set: 1
Commit: 7e2533728b5d574ec8638742cbfe574580c0a063

Gerrit Updater added a comment - 22/Aug/22 2:57 PM "Etienne AUJAMES <eaujames@ddn.com>" uploaded a new patch: https://review.whamcloud.com/48286 Subject: LU-15938 lod: prevent endless retry in recovery thread Project: fs/lustre-release Branch: b2_12 Current Patch Set: 1 Commit: 7e2533728b5d574ec8638742cbfe574580c0a063

Gerrit Updater added a comment - 08/Aug/22 7:53 PM

"Oleg Drokin <green@whamcloud.com>" merged in patch https://review.whamcloud.com/47934/
Subject: ~~LU-15938~~ llog: llog_reader to detect more corruptions
Project: fs/lustre-release
Branch: master
Current Patch Set:
Commit: d914a5b7a49ac6b61c0191a0966d1f684a6957b6

Gerrit Updater added a comment - 08/Aug/22 7:53 PM "Oleg Drokin <green@whamcloud.com>" merged in patch https://review.whamcloud.com/47934/ Subject: LU-15938 llog: llog_reader to detect more corruptions Project: fs/lustre-release Branch: master Current Patch Set: Commit: d914a5b7a49ac6b61c0191a0966d1f684a6957b6

People

Assignee:: Mikhail Pershin

Reporter:: Andreas Dilger

Votes:: 0 Vote for this issue

Watchers:: 15 Start watching this issue

Dates

Created:: 12/Jun/22 3:24 AM

Updated:: 31/Jul/25 7:22 AM

Resolved:: 08/Dec/22 12:14 AM