Introdução

  • A Mineração de Dados, do inglês Data Mining, surgiu com o intuito de auxiliar a organização e exploração de dados que são armazenados em grandes volumes. É uma pratica relativamente recente que utiliza técnicas de reconhecimento de padrões e estatística, inteligência artificial, recuperação de informação, para procurar correlações entre diferentes dados permitindo adquirir conhecimentos benéficos para seu usuário.
  • R é uma linguagem de programação direcionada para a produção de gráficos e análise estatística. Foi criada por Ross Ihaka e Robert Gentleman professores na universidade de Auckland na nova Zelândia.


Características

  • O Ambiente R apresenta código fonte aberto, o que permite que ele seja modificado ou implementado por qualquer usuário a qualquer momento. É uma linguagem orientada a objetos que se assemelha à linguagem S mas com a vantagem de ser de livre distribuição.
  • Não é um programa estatístico, porém, devido as suas rotinas permite a manipulação, avaliação e interpretação de procedimentos estatísticos aplicado a dados. Além disso, permite realizar operações matemáticas simples, manipulação de vetores e matrizes e a confecção de variados tipos de gráficos.


Sistema de Pacotes

  • R é uma linguagem altamente expansível com o uso de pacotes (bibliotecas para funções específicas ou áreas de estudo específicas) que podem ser criados pelos usuários e expandem as capacidades do ambiente, com técnicas estatísticas especializadas, dispositivos gráficos, capacidade de importação e exportação de dados, ferramentas de relatórios, entre outros. Os pacotes podem ser desenvolvidos em linguagens como R, Java, C e Fortran. Ao instalar o programa, o usuário conta com a instalação adicional de 5300 pacotes.
  • O sistema de empacotamento, introduzido no início da vida de R, permite aos indivíduos participarem de seu desenvolvimento sem a intervenção direta do núcleo de R. De certa forma, esse sistema de pacotes - como controle de versão - é uma solução tecnológica para um problema social: como convidar, motivar e coordenar a atividade de centenas de voluntários, sem sobrecarregar os recursos da equipe principal.
  • Como R é programável, permite aos seus usuários o desenvolvimento de softwares para o seu próprio uso e o sistema de pacotes encoraja-os à compartilhar este programa com os outros. Este processo permite que R cresça de forma natural e orgânica. A disponibilidade de uma grande variedade de pacotes contribuiu, por sua vez, para o aumento da atratividade de R a um grupo diversificado de usuários, incluindo os que não escrevem os seus próprios programas.

Funcionamento da Ferramenta

  • R funciona fundamentalmente pelo modelo “pergunta-resposta”. Para a criação de gráficos, basta especificar o gráfico desejado e quais são as variáveis. As figuras padrão produzidas por R não são publicáveis, mas trazem a informação que foi usada para gerar o gráfico e podem perfeitamente ser usadas para uma interpretação inicial dos resultados.
  • É possível fazer a edição de gráficos de duas formas: uma é por dentro do gráfico, ou seja, dentro da função plot, boxplot, ou barplot, e a outra é pela função par(). Alguns argumentos podem ser chamados exclusivamente por uma das duas maneiras. Por exemplo, “ylab” e “xlab” modificam o nome (label) dos eixos e só podem ser chamadas por dentro do gráfico, já outras funções só podem ser chamadas pelo par(), como por exemplo, a função “mar” que controla o tamanho das margens do gráfico e “mfrow” que controla quantos gráficos serão mostrados no mesmo dispositivo.
  • É possível executar a função help() para obter ajuda de uma função específica. Por exemplo, na função par() ficaria assim: “help (par)” ou “?par”;

Exemplos de Interface

Arquivo:Interface.pdf

Referências bibliográficas