Storage: dados ativos x Arquivo ativo

Em uma das minhas colunas discuti sobre o que vinha usando para considerar que existe uma mudança nos dados ativos. Agora, é preciso olhar para o trabalho que precisa ser realizado. Graças a iniciativas de analytics em tempo real, algumas informações que classificávamos como arquiváveis agora precisam estar na linha de frente. Se este realmente for o caso, qual o real papel do arquivo? Como discos e fitas participam neste novo mundo?
A chave para balancear a estratégia de storage, mesmo com todo esse amontoado de informação ativa, é mudar o processo de decisão de arquivar certos tipos de dados. Dentro da atual metodologia de arquivamento, a decisão mais comum leva em consideração apenas a dada de última alteração. Em outras palavras, dados com X dias/anos podem ser arquivados, todo o restante fica na linha de frente, ou no storage principal. O problema com essa metodologia é que ela não é compatível com as ferramentas de análise em tempo real e nada compatível com a forma que os usuários utilizam as informações.
Precisamos de métricas melhores para nos ajudar a decider que tipo de informação fica no storage principal e qual será arquivada. O critério chave parece caminhar para qual dado, se ele precisar ser acessado, será entregue instantaneamente – em outras palavras, alguma coisa que pode ser necessário analisar no futuro. Esse dado deve, provavelmente, não ir para o arquivo, não importa o quão velho for, desde que ele tenha uma probabilidade estatística alta.
Entretanto, se soubermos com certeza que algumas informações não farão falta nesse processamento em tempo real ou não será necessário para aplicações de analytics, então, arquive-as o quanto possível, sem importar a idade do dado. Talvez, alguns desses dados venham a gastar todo seu ciclo de vida no arquivo, já que o desempenho do arquivo é bom o bastante para esse uso.
Existe também a necessidade de entender a relação entre os arquivos. Como exemplo simples, estou escrevendo um alguns livros agora. Cada um desses livros tem múltiplas interações com o nome de arquivo, mas diversas partes de conteúdo desses arquivos são as mesmas. Quando eu chegar ao final desses livros, acredito que não vou precisar dos rascunhos, mas como todas as informações ganharam um status de “você nunca sabe quando”, quero deixá-los guardados, ainda que acredite que nunca os acessarei novamente.
A questão é: quantos desses rascunhos eu precisarei de acesso instantâneo e quantos eu poderei esperar por dez minutos até que possa visualizá-los? Em minha opinião, o que realmente preciso é da cópia final e de algumas interações. Seria bom ter algum software para analisar todas as informações e manter as versões dos arquivos com as mudanças mais significantes e, então, arquivar o restante.
Uma das coisas que aprendemos em nossos testes de deduplicação no storage principal é quão grande é o papel que a tecnologia pode ter nessas circunstâncias. Essencialmente, eu posso manter todos os arquivos com o menor impacto no uso de espaço. E já que eles podem ser baseados em discos, o tempo de leitura é excelente.
Outra classificação é como o dado pode ser recuperado? O dado pode ser utilizado sequencialmente? Se este é o caso, então, apenas a sessão inicial do dado precisa ser armazenada no storage principal, de forma que possa ser acessado enquanto o restante é carregado e o usuário não sinta um delay tão grande. Essa possibilidade pede um sistema de arquivo inteligente o bastante para entregar o dado a partir de duas fontes distintas ao mesmo tempo.
