Procedimentos para Construção de Pacotes
Anterior

19 Procedimentos para lidar com falhas de disco

Quando uma máquina tem uma falha de disco (por exemplo, um panic devido a erros de leitura, etc.), devemos executar os seguintes procedimentos:

Anote o tempo e o tipo de falha (por exemplo, colea saída do console que for relevante) no /var/portbuild/${arch}/reboots
Para os clientes gohan i386, limpe o disco criando o arquivo /SCRUB no nfsroot (por exemplo, /a/nfs/8.dir1/SCRUB) e reinicie. Isso vai executar um dd if=/dev/zero of=/dev/ad0 e forçar a unidade a remapear todos os setores defeituosos que encontrar, isto se ela ainda tiver setores suficientes sobrando. Esta é uma medida temporária para estender o tempo de vida de uma unidade de disco que em breve irá tornar-se inutilizável.

Nota: Para os sistemas blade i386, outro sinal de falha nos discos é quando a blade fica em espera e não responde a qualquer comando pelo console, ou mesmo pelo NMI.

Para os outros sistemas de compilação que não executam um newfs nos seus discos no momento da inicialização (por exemplo, os sistemas amd64) este procedimento deve ser ignorado.

Se o problema persistir, então provavelmente o disco está inutilizado. Remova a máquina do mlist e (para discos ATA) execute o smartctl na unidade:

smartctl -t long /dev/ad0

Isso vai levar cerca de 30 minutos:

gohan51# smartctl -t long /dev/ad0
smartctl version 5.38 [i386-portbld-freebsd8.0] Copyright (C) 2002-8
Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 31 minutes for test to complete.
Test will complete after Fri Jul  4 03:59:56 2008

Use smartctl -X to abort test.

Quando o comando acima finalizar, execute o comando smartctl -a /dev/ad0 para verificar o estado da unidade:

# SMART Self-test log structure revision number 1
# Num  Test_Description    Status                  Remaining
LifeTime(hours)  LBA_of_first_error
#   1  Extended offline    Completed: read failure       80%     15252    319286

Ele também exibirá outros dados, incluindo um log dos erros anteriores da unidade. É possível que a unidade mostre erros de DMA embora não apresente falhas no auto-teste (por conta do remapeamento de setores).

Quando um disco falhar, por favor, informe os administradores do cluster, para que possamos substituí-lo.

Anterior	Principal
Como configurar um novo nó principal (instância do pointyhat)