Procedimentos para Construção de Pacotes | ||
---|---|---|
Anterior |
Quando uma máquina tem uma falha de disco (por exemplo, um panic devido a erros de leitura, etc.), devemos executar os seguintes procedimentos:
Anote o tempo e o tipo de falha (por exemplo, colea saída do console que for relevante) no /var/portbuild/${arch}/reboots
Para os clientes gohan i386, limpe o disco criando o arquivo /SCRUB no nfsroot (por exemplo, /a/nfs/8.dir1/SCRUB) e reinicie. Isso vai executar um dd if=/dev/zero of=/dev/ad0 e forçar a unidade a remapear todos os setores defeituosos que encontrar, isto se ela ainda tiver setores suficientes sobrando. Esta é uma medida temporária para estender o tempo de vida de uma unidade de disco que em breve irá tornar-se inutilizável.
Nota: Para os sistemas blade i386, outro sinal de falha nos discos é quando a blade fica em espera e não responde a qualquer comando pelo console, ou mesmo pelo NMI.
Para os outros sistemas de compilação que não executam um newfs nos seus discos no momento da inicialização (por exemplo, os sistemas amd64) este procedimento deve ser ignorado.
Se o problema persistir, então provavelmente o disco está inutilizado. Remova a máquina do mlist e (para discos ATA) execute o smartctl na unidade:
smartctl -t long /dev/ad0
Isso vai levar cerca de 30 minutos:
gohan51# smartctl -t long /dev/ad0 smartctl version 5.38 [i386-portbld-freebsd8.0] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Extended self-test routine immediately in off-line mode". Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 31 minutes for test to complete. Test will complete after Fri Jul 4 03:59:56 2008 Use smartctl -X to abort test.
Quando o comando acima finalizar, execute o comando smartctl -a /dev/ad0 para verificar o estado da unidade:
# SMART Self-test log structure revision number 1 # Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 80% 15252 319286
Ele também exibirá outros dados, incluindo um log dos erros anteriores da unidade. É possível que a unidade mostre erros de DMA embora não apresente falhas no auto-teste (por conta do remapeamento de setores).
Quando um disco falhar, por favor, informe os administradores do cluster, para que possamos substituí-lo.
Este, e outros documentos, podem ser obtidos em ftp://ftp.FreeBSD.org/pub/FreeBSD/doc/.
Para perguntas sobre FreeBSD, leia a documentação antes de contatar <questions@FreeBSD.org>.
Para perguntas sobre esta documentação, envie e-mail para <doc@FreeBSD.org>.