Recursos/White Papers

Opinião

Três estágios da automação de sistemas

São fases que servem de guia para a transição fluida para uma boa automação

Leon Adato *

Publicada em 18 de abril de 2017 às 07h00

O vislumbre de um futuro próximo, em que executivos procuram maneiras de remover seres humanos conscientes (isto é, pessoal experiente) do painel de controle do data center, costuma assustar muitos profissionais de TI. Ainda assim, a automação se tornou uma tecnologia indispensável, desejada até mesmo pelos mais paranoicos. O motivo é a liberdade que ela oferece das tarefas monótonas de correção. É compreensível, no entanto, que remover a supervisão criteriosa e calculada da solução de problemas pareça ser algo intimidante. Então, por onde podemos começar?
 
Antes de mais nada, as organizações que não têm uma ferramenta de monitoramento ou que estejam usando um sistema de monitoramento improvisado (como o DevOps) devem se abster de implementar a automação. Além disso, se sua empresa costuma se confinar ao modo reativo, a automação não deve ser uma prioridade imediata – o motivo é que, com seu departamento de TI totalmente envolvido no combate a incêndios, provavelmente não haverá recursos suficientes disponíveis para implementar e supervisionar a automação de forma a garantir o sucesso. No fim das contas, você terá um quebra-galho mal-planejado que não conseguirá testar por completo, e descobrirá tarde demais que ele está causando problemas, em vez de solucioná-los.
 
Problemas de carga de trabalho à parte, acho interessante que uma das maiores barreiras à automação costuma vir da equipe de segurança da empresa. Mesmo sem o espectro de scripts autônomos passando por cima dos sistemas, o administrador de segurança pode se sentir inseguro ao conceder acesso a dados e métricas de negócios a uma pessoa. Apresente a ideia de correção por scripts, e a segurança estará face a face com o conceito de conceder acesso de alto nível a uma conta não assistida, que ficará online o dia inteiro, essencialmente sem supervisão.
 
Entretanto, essas duas questões devem ser resolvidas nas camadas 8-10 do modelo de Interconexão de sistemas abertos (OSI) (dinheiro, política e governança). Para o nosso propósito de falar sobre como implementar o monitoramento em sua organização, vamos supor que sua organização tem os recursos de alocação de pessoal e o consentimento da equipe de segurança. Partindo daí, a boa notícia é que, além de uma solução de monitoramento sólida, sua organização não precisa de muito para começar a automação do data center. Pense nisso mais como uma recompensa por contar com um sistema de monitoramento bem-sucedido do que como um experimento aleatório.
 
Bem, entendemos que você já tem um sistema de monitoramento avançado. Ótimo! Vamos continuar.
 
Com o monitoramento necessário, você consegue responder automaticamente a determinadas condições.

É recomendável ter alguns aspectos de monitoramento antes de começar a automação, como a capacidade de:
 
  • Monitorar e estabelecer uma linha de base para as métricas de desempenho dos diferentes aplicativos ou cargas de trabalho. Definir a linha de base é uma função de sua ferramenta de monitoramento, em vez de algo a ser feito manualmente. Ao rastrear dados em andamento, ela pode estabelecer o nível normal de cada sistema ou subelemento. Isso permite que as soluções de monitoramento e automação determinem se algo está realmente anormal e requer um alerta, ou se um dispositivo costuma chegar aos 80% às terças-feiras de manhã, por exemplo. Linhas de base também permitem automatizar o planejamento de capacidade pelo uso de dados de utilização de longo prazo para extrapolar quando um recurso estará completamente consumido. Dessa forma, você pode planejar de forma mais eficaz e evitar atualizações-surpresa.
  • Automatizar a resposta no mesmo alerta que detectou o problema. Isso se fundamenta no fato de que sua solução de monitoramento tem respostas automatizadas incorporadas para determinados cenários, como a reinicialização de um serviço ou a redefinição de um pool de aplicativos, em vez de exigir que o administrador programe um script para cada ação.
  • Verificar o sistema após a execução automatizada. Algumas soluções de monitoramento podem executar uma ação em resposta a um problema, mas param por aí. Se o problema se repetir, o mesmo acontece com a resposta automática. Nesses casos, o escalonamento acontece somente se a interrupção for detectada ou se for criado um segundo alerta que verifica o mesmo problema em um período mais prolongado. A alternativa preferível é garantir que a solução de monitoramento possa responder ao problema inicial com automação, mas verificar novamente após um breve período para ver se o problema foi solucionado. Caso não tenha sido, uma ação secundária – normalmente a notificação do pessoal – pode ser executada.
 
Antes de passarmos aos diversos estágios dos sistemas de automação, também é importante abordar um problema normalmente ignorado, ainda que bastante óbvio: a automação não significa, necessariamente, a solução do problema. Respostas automáticas a alertas mantêm seu data center – e seu negócio – funcionando mesmo depois do expediente, mas na manhã seguinte você e sua equipe precisam verificar se um evento ocorreu, tentar entender por que isso aconteceu e prevenir o problema no futuro. Por exemplo, um alerta recorrente de “disco cheio” pode ser abordado repetidas vezes por um sistema automatizado, mas a causa raiz do alerta não terá sido corrigida e prejudicará a experiência geral do usuário final até que seja finalmente solucionada.
 
monitoramento625
Com esse propósito, estamos testemunhando a disponibilização de ferramentas mais sofisticadas para ajudar a lidar com o “e agora?” que vem depois das implementações do monitoramento e da automação. Essas ferramentas de integração com controles centralizados permitem combinar as principais métricas de silos de monitoramento individuais em uma exibição sincronizada, o que permite identificar com mais rapidez e precisão a causa raiz de problemas em ambientes de TI híbrida. Essas ferramentas também melhoram a colaboração entre os departamentos e reduzem o tempo de correção a um mínimo, além de capacitar os profissionais de TI a aprimorar a automação. Assim que você tiver identificado e solucionado a causa raiz de um problema pela visualização de cada uma das partes que contribuem para a falha geral, poderá programar scripts de respostas automatizadas mais inteligentes.
 
Com tudo isso em mente, apresento três etapas iniciais com as quais sua organização pode dar início à jornada de automação. Embora a trajetória de cada empresa possa ser ligeiramente diferente e, portanto, certas fases podem variar, estas três etapas foram projetadas para ajudar a começar, pouco a pouco, a ir tirando as mãos do volante e automatizando os sistemas. 
 
  1. A informação é essencial. Você pode começar a pensar na automação preenchendo seus tíquetes com mais informações sobre o dispositivo, o sistema de destino, o subelemento e o momento em que a falha ocorreu, ou até mesmo adicionando um link para a ferramenta de monitoramento que mostra o elemento afetado. Às vezes, a melhor automação que se pode fazer é fornecer ao técnico inicial o máximo de informações possível sobre o estado do sistema no momento em que o problema ocorre – economizando os 10-20 minutos até que ele se levante da cama e ligue o notebook – permitindo que ele lide imediatamente com o problema.
 
  1. Quanto mais informações, melhor. No data center, mais informações são sempre bem-vindas. Nesta próxima fase, você deve adicionar ainda mais informações aos seus sistemas de alerta. Com isso, não quero dizer “mais do mesmo”. Pense em maneiras de reunir espontaneamente informações detalhadas relevantes ao problema que ainda não constem no sistema de monitoramento. Exemplos podem ser os dez principais processos – classificados por uso da CPU – quando a CPU ultrapassa um limiar, os dez principais processos classificados por RAM quando a memória fica crítica, o número de conexões a um servidor Web no momento de interrupção de um processo do IIS ou as consultas mais demoradas no momento em que um servidor de banco de dados apresenta lentidão nos tempos de resposta. Quanto mais informações relevantes você puder fornecer ao primeiro técnico a lidar com o problema, mais capacitado ele estará para detectar e lidar com a verdadeira causa raiz o mais rápido possível. Isso é especialmente importante quando há suspeita de uma falha que não pode ser visualizada ou detectada logo em seguida – não há como identificar os dez principais processos quando todo o sistema está travado. Quanto mais informações você for capaz de compartilhar com o fornecedor em cada tíquete, mais isso o ajudará a ter um panorama claro do problema potencial e iniciar a correção. 
 
  1. Comece aos poucos, com simplicidade. É melhor começar pelas opções mais acessíveis: reiniciar um serviço quando for interrompido, lidar com um disco cheio, reiniciar um arquivo de log etc. A meta é obter experiência com a automação por meio de ações de baixo risco e, então, usar esse aprendizado aos poucos em tarefas maiores e mais complicadas. Costumo ver organizações que tentam implementar a automação começando com algo grandioso, mas é muito mais eficaz começar com a automação dos elementos que apresentam o maior impacto com o menor esforço. Problemas frequentes, ainda que triviais (como erros de disco cheio), podem custar às organizações milhares de dólares por ano em tempo perdido, oportunidades, recursos e materiais. Esse é um problema fácil de detectar e corrigir – podendo até, na maioria dos casos, ser previsto e, portanto, totalmente evitado. Pequenos sucessos como esses ajudarão você a convencer sua gerência sobre os benefícios da automação e a preparar o caminho para iniciativas de mais larga escala.
 
Enquanto você se acostuma com o respeito e os elogios dos colegas (e até mesmo da gerência), lembre-se de que, apesar de a automação poupar dores de cabeça no meio da madrugada, ela ainda exige que você e sua equipe investiguem e corrijam a causa raiz do problema de manhã cedo.
 
As fases iniciais da implantação discutidas acima servem de guia para a transição fluida de sua organização do bom monitoramento para a boa automação, ao trabalhar e compartilhar o máximo possível de dados e informações de sistemas entre as equipes.
 
Por fim, a boa automação é possível graças ao bom monitoramento. Quando feita corretamente, ela é algo simples – é automação do jeito que deve ser.


(*) Leon Adato é Head Geek da SolarWinds

 



Reportagens mais lidas

Acesse a comunidade da CIO

LinkedIn
A partir da comunidade no LinkedIn, a CIO promove a troca de informações entre os líderes de TI. Acesse aqui