Diferença entre Data Profiling e Data Mining

Publicados: 2019-09-25
Índice mostrar
O que é Perfil de Dados
Práticas recomendadas de criação de perfil de dados
O que é Mineração de Dados
Etapas envolvidas na mineração de dados
Conclusão

Embora a mineração de dados seja um tópico de tendência no mundo atual de aprendizado de máquina, web scraping e inteligência artificial; perfil de dados é um tópico relativamente raro e um assunto com uma presença comparativamente menor na web. Pensando sobre qual é a diferença entre criação de perfil de dados e mineração de dados?

Bem, mineração de dados refere-se a encontrar padrões nos dados que você coletou ou tirar uma conclusão de certos pontos de dados. É tudo sobre os dados que foram coletados – as linhas e as colunas no arquivo CSV. No entanto, a criação de perfil de dados é sobre os metadados que podem ser extraídos de um conjunto de dados e a análise desses metadados para encontrar o uso que o conjunto de dados pode fazer melhor.

Como ambos os tópicos mencionados hoje são pesos pesados ​​e envolvem várias etapas e procedimentos, juntamente com as melhores práticas, vamos aprofundá-los.

O que é Perfil de Dados

Embora o perfil de dados seja sobre encontrar dados ou metadados do conjunto de dados presente em nossas mãos, ele pode ser dividido em três tipos diferentes de metadados:

  1. Informações relacionais podem ser encontradas em grandes conjuntos de dados. Digamos que você tenha um conjunto de dados com 10 tabelas. Você pode descobrir quais tabelas estão relacionadas e os dados para quais seriam alterados alterando os valores em outra tabela.
  2. Os metadados também podem ser descobertos a partir do conteúdo. Isso geralmente se refere a erros nos dados, campos ausentes e muito mais. Por exemplo, se um campo específico estiver vazio em mais de 50% dos dados, talvez tenhamos que renunciar a esse ponto de dados ao fazer qualquer análise.
  3. Informações estruturais também podem ser descobertas a partir de nossos dados. Essas informações podem ser de vários tipos. Pode ser a média estatística, mediana ou máxima de seus conjuntos de dados. Pode até ser a porcentagem de pontos de dados coletados de domicílios urbanos e o percentual coletado de domicílios urbanos. Em resumo, isso nos diria muito sobre a aparência dos dados sem a necessidade de entrarmos na planilha do Excel e verificar cada linha.

Os diferentes tipos de metadados que discutimos nos fornecem muito mais informações sobre os dados disponíveis do que os dados brutos em si. Essas informações podem ser usadas para descobrir onde os dados se encaixam em seu processo e onde seria o melhor lugar para usá-los. A porcentagem de limpeza de dados ou dados ausentes também podem ser identificados a partir desses metadados e as alterações podem ser feitas de acordo para tornar os dados utilizáveis. Os relacionamentos encontrados nos pontos de dados e tabelas também podem ser usados ​​para configurar verificações de redundância e muito mais.

Práticas recomendadas de criação de perfil de dados

Enquanto discutimos os dados e os metadados e tudo o que podemos fazer com eles, existem padrões da indústria e melhores práticas, ou seja, indicadores e referências sobre como usar os metadados e quais metadados observar. Desviar-se das melhores práticas e das metodologias comuns pode levar você a descobertas que apontam na direção errada. Algumas das metodologias e melhores práticas são as seguintes:

  1. Relações entre Pontos de Dados – Eles precisam ser armazenados para que, ao usar linguagens de consulta como SQL, os dados relacionados possam ser facilmente extraídos. Digamos que você esteja analisando a tabela dos fabricantes de automóveis e queira encontrar a potência de cada carro que um determinado fabricante vendeu até o momento. Tais informações podem ser facilmente deriváveis ​​somente se as relações entre a tabela do fabricante, a tabela do carro e a tabela de especificações do carro estiverem bem definidas.
  2. Data-Point Checks – É a identificação de pontos de dados nulos, em branco e preenchidos com erros. Ele precisa ser armazenado junto com o conjunto de dados para que qualquer pessoa que pegue o banco de dados esteja ciente dessas restrições logo no início.
  3. Pontos de Dados Estatísticos – Refere-se a valores estatísticos que podem ser importantes em certos casos. Refere-se a valores como média, mediana, modo, máximo, mínimo, frequência e mais para cada coluna do seu banco de dados.
  4. Padrões – Existem diferentes padrões nos dados. Por exemplo, ao verificar uma coluna, você pode descobrir que ela consiste apenas em sim ou não - portanto, é uma coluna booleana. Por um lado, pode ser masculino ou feminino. Portanto, são dados categóricos. Além disso, usando a correspondência regex, pode-se até identificar se determinadas colunas são códigos PIN, endereços, nomes, idades, endereços de e-mail ou números de telefone. Todas essas informações devem ser capturadas separadamente para que qualquer pessoa que leia o banco de dados possa entender melhor a estrutura de dados.

O que é Mineração de Dados

A mineração de dados é um tópico interdisciplinar que se baseia em estatísticas, web scraping, extração de dados, aprendizado de máquina e sistemas de banco de dados. Devido a essa vasta cobertura, ele é usado por todos, desde cientistas que trabalham para identificar células cancerígenas em corpos humanos até equipes de vendas que tentam atingir suas metas mensais.

No entanto, a mineração de dados em si consiste em várias etapas, como descoberta de dados, pré-processamento, pós-processamento, visualização e muito mais, que discutiremos. Embora existam muitas etapas, o processo real de encontrar padrões em dados geralmente é automático ou semiautomático e envolve principalmente descobrir qual algoritmo se ajusta bem a qual conjunto de dados.

Novamente, um ponto importante a ser observado neste momento é que a mineração de dados é muito diferente da análise de dados. Enquanto o primeiro usa principalmente modelos estatísticos e de aprendizado de máquina para descobrir padrões ocultos, o último é usado para testar modelos e hipóteses em conjuntos de dados.

Etapas envolvidas na mineração de dados

As etapas usuais envolvidas na mineração de dados são as seguintes.

  • Entendendo o problema do negócio.
  • Obtendo uma imagem mais clara dos dados.
  • Limpando os dados e preparando-os para modelagem.
  • Criar um modelo de ML ou estatístico a partir dos dados.
  • Avaliar o modelo e revisar seu desempenho em um ambiente de teste.
  • Implantando a solução e revisando seu desempenho em um ambiente de produção.
  • Muitas vezes, um processo simplificado é seguido pela maioria das empresas, consistindo em pré-processamento, mineração de dados e validação do conjunto de resultados.

Conclusão

Você deve ter notado que certas etapas, como limpeza de dados e preparação dos dados, são semelhantes em ambos os tópicos. O manuseio de dados sempre envolve algumas “melhores práticas” universais que precisam ser seguidas, não importa o que você esteja fazendo com os dados. Os dados se tornaram a entrada para a maioria dos processos de negócios, onde a saída resulta em informações inteligentes. No entanto, coletar os dados é um esforço hercúleo em si. Essa é a razão pela qual o PromptCloud existe. Nossa equipe de coleta de dados fornece soluções de DaaS que podem atender desde pequenas empresas familiares e startups até as pioneiras da Fortune 500.