Status:FailedAndSuspended ContentIndexState:Suspended

Hoje me deparei com um erro digamos bem conhecido, o famoso problema do ContentIndex Suspended de uma base passiva. Juntamente a replicação da base também como FailedAndSuspended. Vou expor abaixo minha experiencia com as duas situações.

  • Problema 1:

A primeira vez que vi esse erro foi no Exchange Server 2013, em um ambiente que eu havia acabado de implantar.

A primeira atitude que tomei, foi realizar a criação do grupo ContentSubmitters como informa esse KB da Microsoft:

https://support.microsoft.com/en-us/help/2807668/content-index-status-of-all-or-most-of-the-mailbox-databases-in-the-environment-shows-failed

Após evidenciar que o problema não havia sido resolvido, parti para um troubleshooting mais avançado. Coletei logs a nível de NTFS e Storage para ter certeza que não havia nenhum tipo de corrosão no disco, seja a nível de filesystem ou a nível de bloco. Realmente não havia nada, o storage estava integro.

O problema começou até a piorar, o que era antes apenas falha de Index e replicação, passou a virar corrosão da Database – deixando-a em Durty Shutdown – por duas vezes.

Resolução:

Apesar de eu não haver encontrado nenhuma log que me desse uma pista do problema, comecei a notar alguns detalhes curiosos. O primeiro é que o erro basicamente só ocorria de noite, entre o mesmo horário que ocorria o job de backup. O segundo detalhe é que o erro só ocorria quando existia uma janela de migração de usuários durante a madrugada. Juntando os fatos, pedi ao cliente que parasse de realizar Move-Mailbox de madrugada e o fizesse durante horário comercial. Após isso, nunca mais o problema voltou a ocorrer.

  • Problema 2:

Dessa vez com o Exchange Server 2016, o cliente me informou que haviam 6 Databases com FailedAndSuspended no status replicação e com o Suspended no ContentIndex.

A primeira coisa que identificamos foi falha em alguns discos, no event viewer eu via as falhas como EventID 55 NTFS.

Analisando o horário em que houve a falha, o cliente informou que parecia ser o mesmo horário que um disco SAS de um storage que atende um host do Exchange havia sido trocado.

Resolução:

Acessamos a console do storage para ver se havia alguma log de erro, e de fato achamos uma log de erro no rebuild do hot spare. Os horários coincidiam, então ficou claro que o problema estava ali.

Fizemos o Reseed de todos as copias que estavam com problemas com o comando abaixo, e o problema foi resolvido:

Get-MailboxDatabaseCopyStatus * |Where {$_.ContentIndexState -eq “FailedAndSuspended” |Update-MailboxDatabaseCopy

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *