Status:FailedAndSuspended ContentIndexState:Suspended
Hoje me deparei com um erro digamos bem conhecido, o famoso problema do ContentIndex Suspended de uma base passiva. Juntamente a replicação da base também como FailedAndSuspended. Vou expor abaixo minha experiencia com as duas situações.
- Problema 1:
A primeira vez que vi esse erro foi no Exchange Server 2013, em um ambiente que eu havia acabado de implantar.
A primeira atitude que tomei, foi realizar a criação do grupo ContentSubmitters como informa esse KB da Microsoft:
Após evidenciar que o problema não havia sido resolvido, parti para um troubleshooting mais avançado. Coletei logs a nível de NTFS e Storage para ter certeza que não havia nenhum tipo de corrosão no disco, seja a nível de filesystem ou a nível de bloco. Realmente não havia nada, o storage estava integro.
O problema começou até a piorar, o que era antes apenas falha de Index e replicação, passou a virar corrosão da Database – deixando-a em Durty Shutdown – por duas vezes.
Resolução:
Apesar de eu não haver encontrado nenhuma log que me desse uma pista do problema, comecei a notar alguns detalhes curiosos. O primeiro é que o erro basicamente só ocorria de noite, entre o mesmo horário que ocorria o job de backup. O segundo detalhe é que o erro só ocorria quando existia uma janela de migração de usuários durante a madrugada. Juntando os fatos, pedi ao cliente que parasse de realizar Move-Mailbox de madrugada e o fizesse durante horário comercial. Após isso, nunca mais o problema voltou a ocorrer.
- Problema 2:
Dessa vez com o Exchange Server 2016, o cliente me informou que haviam 6 Databases com FailedAndSuspended no status replicação e com o Suspended no ContentIndex.
A primeira coisa que identificamos foi falha em alguns discos, no event viewer eu via as falhas como EventID 55 NTFS.
Analisando o horário em que houve a falha, o cliente informou que parecia ser o mesmo horário que um disco SAS de um storage que atende um host do Exchange havia sido trocado.
Resolução:
Acessamos a console do storage para ver se havia alguma log de erro, e de fato achamos uma log de erro no rebuild do hot spare. Os horários coincidiam, então ficou claro que o problema estava ali.
Fizemos o Reseed de todos as copias que estavam com problemas com o comando abaixo, e o problema foi resolvido:
Get-MailboxDatabaseCopyStatus * |Where {$_.ContentIndexState -eq “FailedAndSuspended” |Update-MailboxDatabaseCopy