Data analyze – Big dataでData mining

Data analyze

データの分析。

Influences

Data の Reliability に影響を与える要因。

  • Nature
  • Source
  • Process

Analytics mindset

Professional judgments を Exercise するための Information の使い方や Critically な考え方をもつ能力、思考。

大量の Data から Pattern recognition などの Techniques を駆使して Previously unknown information を Discover することを Data-mining という

Data visualization

Data を Graph で視覚化。Color は4色以下が望ましい。それを超えると Confusing。

Color の選択には、Color wheeling(色環)が使われる。
Negative space(余白)を Consider

Data analyze で使用される Chart。

  • Line chart
  • Bar chart
  • Pie chart
  • Packed bubble chart
  • Symbol chart
  • Word cloud
  • Scatterplot
  • Box plot

Line chart

折れ線グラフ。Over time に Measure。

Bar chart

棒グラフ。Categorical data を Illustrate。

Stacked bar chart

積み上げ棒グラフ。関連する Parts は積み上げた表示される Bar chart。

Pie chart

円グラフ、Circle chart 。Circle を Divide して Categorical variable を示す。

Packed bubble chart

Components を複数の Bubble で表示。Bubble の Size や Color に差をつける。

Symbol chart

シンボルチャート。Circle を使ったグラフ。

Word cloud

Word の集合体。Word の頻出度により Size、Colorなどを表示する。頻出度が高い Word は Larger。

Scatterplot

散布図。2つの Variables の Relationship を Plot(点)で示す。

Box plot

箱ひげ図。Median(中央値)や Quartiles(四分位数)などの The distribution of a variable を示す。

Histogram

The distribution of a variable が Bins によって Group 分けされて Shape of the distribution(計上分布)を示す。

Standard deviation

標準偏差。Bell shape を描く。Normal distribution (正規分布) 。Symmetrical distribution 。

Normal distribution では、Variable は Central tendency(中心的傾向)となる。

Positive skewness

正の歪度。右に歪んでいるので Right skewed とも呼ばれる。Non normal distribution 。

Negative skewness

負の歪度。左に歪んでいるので Left skewed とも呼ばれる。Non normal distribution。

Big data

従来の Database では Analyze できない大容量の Data。または、その Data の Creation、Analysis、Storage、Dissemination などの管理。

Cloud などの Computer storage technology の進化により、Feasible なものとなった。

Big data を実施して Data mining を行い Analysis ができる。Big data は Financial institution や Large corporation で使用されている。

Data mining

大容量の Data に、Artificial intelligence(人工知能)、Pattern recognition(パターン認識)、Statistics(統計学)などの Techniques を駆使して Previously unknown information を Discover。

Pattern recognition

パターン認識。Large data の Data mining で重要な情報処理。Data の Pattern や Regularity を Recognize 。音声認識や OCR(文字認識)などが該当する。

Big data initiative

Big data に関する発案。2012年には、オバマ政権やマサチューセッツなどでも発表された。

Issues

Big data initiative で Control する Issues

  • Understanding
  • Data quality
  • Confidentiality
  • Availability

Consideration

Big data initiative が Launch されるときに、最初に Consider されること。

  • Privacy law
  • Qualitative characteristics of the data
  • Roles and responsibilities

Starding point

Big data initiative は Governance structure から始める。

Dark data

Big data のなかで Underuse(未利用)な Data。

Hadoop

Big data を複数のコンピューターで分散して処理できる技術。

Internet of things

IoT、さまざまなモノをネットにつなぐ。Big data application の一例。

Automated ETL process

Big data sets で用いられる Feasible な Approach 。当然、Manual の ETL process より Efficient。

ETLは Data の統合プロセス。Extract、Transform、Load からなる。