Data analyze – Big dataでData mining
Data analyze
データの分析。
Influences
Data の Reliability に影響を与える要因。
- Nature
- Source
- Process
Analytics mindset
Professional judgments を Exercise するための Information の使い方や Critically な考え方をもつ能力、思考。
大量の Data から Pattern recognition などの Techniques を駆使して Previously unknown information を Discover することを Data-mining という
Data visualization
Data を Graph で視覚化。Color は4色以下が望ましい。それを超えると Confusing。
Color の選択には、Color wheeling(色環)が使われる。
Negative space(余白)を Consider
Data analyze で使用される Chart。
- Line chart
- Bar chart
- Pie chart
- Packed bubble chart
- Symbol chart
- Word cloud
- Scatterplot
- Box plot
Line chart
折れ線グラフ。Over time に Measure。
Bar chart
棒グラフ。Categorical data を Illustrate。
Stacked bar chart
積み上げ棒グラフ。関連する Parts は積み上げた表示される Bar chart。
Pie chart
円グラフ、Circle chart 。Circle を Divide して Categorical variable を示す。
Packed bubble chart
Components を複数の Bubble で表示。Bubble の Size や Color に差をつける。
Symbol chart
シンボルチャート。Circle を使ったグラフ。
Word cloud
Word の集合体。Word の頻出度により Size、Colorなどを表示する。頻出度が高い Word は Larger。
Scatterplot
散布図。2つの Variables の Relationship を Plot(点)で示す。
Box plot
箱ひげ図。Median(中央値)や Quartiles(四分位数)などの The distribution of a variable を示す。
Histogram
The distribution of a variable が Bins によって Group 分けされて Shape of the distribution(計上分布)を示す。
Standard deviation
標準偏差。Bell shape を描く。Normal distribution (正規分布) 。Symmetrical distribution 。
Normal distribution では、Variable は Central tendency(中心的傾向)となる。
Positive skewness
正の歪度。右に歪んでいるので Right skewed とも呼ばれる。Non normal distribution 。
Negative skewness
負の歪度。左に歪んでいるので Left skewed とも呼ばれる。Non normal distribution。
Big data
従来の Database では Analyze できない大容量の Data。または、その Data の Creation、Analysis、Storage、Dissemination などの管理。
Cloud などの Computer storage technology の進化により、Feasible なものとなった。
Big data を実施して Data mining を行い Analysis ができる。Big data は Financial institution や Large corporation で使用されている。
Data mining
大容量の Data に、Artificial intelligence(人工知能)、Pattern recognition(パターン認識)、Statistics(統計学)などの Techniques を駆使して Previously unknown information を Discover。
Pattern recognition
パターン認識。Large data の Data mining で重要な情報処理。Data の Pattern や Regularity を Recognize 。音声認識や OCR(文字認識)などが該当する。
Big data initiative
Big data に関する発案。2012年には、オバマ政権やマサチューセッツなどでも発表された。
Issues
Big data initiative で Control する Issues
- Understanding
- Data quality
- Confidentiality
- Availability
Consideration
Big data initiative が Launch されるときに、最初に Consider されること。
- Privacy law
- Qualitative characteristics of the data
- Roles and responsibilities
Starding point
Big data initiative は Governance structure から始める。
Dark data
Big data のなかで Underuse(未利用)な Data。
Hadoop
Big data を複数のコンピューターで分散して処理できる技術。
Internet of things
IoT、さまざまなモノをネットにつなぐ。Big data application の一例。
Automated ETL process
Big data sets で用いられる Feasible な Approach 。当然、Manual の ETL process より Efficient。