Por que precisamos de dados nos quais possamos acreditar

À medida que mergulhar de cabeça na era da cloud, precisamos de fontes de dados, API-confiáveis ​​disponíveis ao poder uma nova geração de aplicações

Author Photo
3:52 pm - 06 de maio de 2013

Você provavelmente já ouviu o clichê de um milhão de vezes: Os dados são o bem mais valioso de qualquer negócio. Originalmente, isso foi feito para aplicar a uma empresa financeira, cliente, e os dados do produto.

Objetivo que sobre dados fora da organização?
As empresas gastam de forma seletiva, muitas vezes a preços premium,
para os dados relativos directamente para o seu negócio – D & B para
dados financeiros, Experian de informações de crédito, e assim por
diante. Finalidade como com software, o mercado de dados, abriu, com muitas delas disponíveis gratuitamente.

Como da InfoWorld Paul Krill Notável, no mês passado, os desenvolvedores estão cada vez mais se voltando para fontes de dados API disponíveis para suas aplicações. Na semana passada InfoWorld publicado ” 12 APIs shoulds saber sobre cada programa
“, que inclui tudo, desde a alimentação de atrasos de voo em tempo real
para o depósito definitivo de contas de mídia social do governo dos
EUA.

Um número de agregadores de reunir uma mistura selvagem de fontes de dados. Os dados de mercado do Windows Azure é um motor mais cedo e hoje oferece 167 fontes de dados, 82 de Todos os que são gratuitos. O Programmable Web
, um diretório Web década de idade, recentemente comprada pela
MuleSoft, lista de milhares de pessoas que retornam dados APIs, embora
muitos tenham caído em desuso. Diversas empresas iniciantes, dados grandes: como o empreendimento InfoChimps
, milhares de pessoas em agregados de conjuntos de dados e APIs –
altho, mais uma vez, muitos estão fora de tempo ou não está mais
disponível.

O jogo-como-um-serviço de dados é difícil. Uma startup chamada Expirado Factual
Lançado em 2007 com ambições de se tornar uma câmara de compensação
para uma enorme fileiras dos dados, o objetivo Estreitado icts mira em
2010 para entregar, dados baseados em localização de alta qualidade.
Eu entrevistei recentemente o fundador da Factual e CEO, Gil Elbaz,
aussi Tenha você co-fundada Applied Semantics, os desenvolvedores do
AdSense, comprado pelo Google por US $ 102 milhões em 2003.

Quando eu AbeBooks web sites Elbaz sobre a tecnologia por trás Factual,
que rapidamente emergiu que a maior parte foi dedicada a assegurar a
qualidade dos dados.
.. Ele diz: “Você precisa executar algoritmos contra a limpeza dos
dados brutos O paradigma Abebooks web acredito é que você deverias
sempre armazenar e reprocessar a partir de fundamentos Então, nós
armazenamos a forma mais crua de dados – todos os dados que coletamos,
qualquer a partir da Web ou de nossos parceiros Toda vez que algum dos
nossos algoritmos de limpeza Melhora ainda que ligeiramente, não
aplicá-lo ao banco de dados -. aplicá-lo às fontes de dados brutos
subjacentes, Tudo que é por isso que temos os requisitos de
armazenamento de largura. “

Em outras
palavras, altho o departamento Factual oferece um número relativamente
modesto de 67 milhões de listagem de empresas locais e pontos de
interesse em todo o mundo, ele precisa Quase um petabyte de HDFS armazenamento de manutenção para manter os dados de origem e purificá-la de forma recursiva.

“Eu não acho que houve bastante ênfase a pensar profundamente sobre o
que é o melhor fluxo de trabalho para dados bom quanto possível”, diz
Elbaz.
“Os dados em si não é até factual que você processou com algum tipo de
TIC fluxo de trabalho que melhora a clareza e mais fornece metadados”.

Esse objetivo é o problema do esforço gasto em Garantir a qualidade dos dados não é visível para o cliente imediatamente.
“A triste realidade é que é muito difícil construir uma marca de dados.
Seria bom viver em um mundo onde Será que os dados falam por si e
Alguém poderia aplicar um selo de aprovação, nós realmente vivo goal’m
sua mundo de hoje “, diz Elbaz.

Hoje é a obsessão com a análise de dados grande
de dados semi-estruturados – Tudo o que é muito útil para detectar
tendências, o propósito não tem nada a ver com precisão em um nível
granular. Enquanto isso, na esfera mais ampla da Internet, confeccionados “fatos” sentar-se lado a lado em um nível par com a coisa real. Mesmo a qualidade dos dados expostos por iniciativas dignas como Data.gov tem-se chamado expirou em questão.

Há muita conversa sobre tornar os dados empresariais e governamentais
disponíveis na Internet, mas não tão muita conversa em torno do problema
de muito mais dificuldade para validar os dados. Dados fornecidos como um serviço na nuvem precisa aspirar a ser tão valioso como dados básicos mantidos pelos clientes. Finalidade infelizmente, nenhuma agência independente existe para dar um selo de aprovação para as coisas boas.

Talvez nós simplesmente precisamos esperar por marcas confiáveis ​​para provar-se na prática.
Poderia ser Elbaz tem razão quando diz: “Tudo é uma opinião sobre um
fato menos que haja alguma empresa por trás dele, dizendo: ‘Nós temos um
forte sentimento sobre isso.”

 

 

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.