「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>BI / AI]]
--ビジネス インテリジェンス(BI)
--[[人工知能(AI)]]

*目次 [#t801890c]
#contents

*概要 [#v4f56464]
経営・会計・情報処理などの用語で、

**目的 [#xb4ae1d9]
-ビジネス上の意思決定の支援

-企業などの組織のデータを、収集・蓄積・分析・報告することにより、~
経営判断上の過去・現在・未来予測などの視点を提供し意思決定に役立てる。

**機能 [#l7c91a06]

***データ分析 [#oc80b210]
-[[データディスカバリ>#e82a6237]]等、~
単純なグラフなどの記述統計的な可視化
-回帰分析や最小二乗法など推論統計的な推論

***[[オンライン分析処理(OLAP)>#w08ddd0e]] [#d92f2044]

***[[データマイニング(DM)>#ffd92f5f]] [#fa6b9f78]
-データマイニング
-テキストマイニング
-イメージマイニング
-プロセスマイニング

***その他 [#ra2c861f]
-複合イベント処理
-ビジネス業績管理(BPM)
-ベンチマーキング
-予測分析
-規範分析

*用語 [#c51e327c]
[[ビッグデータ]]の流れで遡って...。

-ストアに関連した用語~
→ [[データレイク>#w2d56f91]]~
→ ([[データクレンジング>#e0fa2951]])~
→ [[データウェアハウス(DWH)>#f38a28c0]]~
→([[特定データ切出>#y4a5e5fc]])~
→ [[データマート>#la758647]]

-分析に関連した用語
--[[オンライン分析処理(OLAP)>#w08ddd0e]]
--[[データディスカバリ>#e82a6237]]
--[[データマイニング(DM)>#ffd92f5f]]

**ストアに関連した用語 [#r2688335]

***データレイク [#w2d56f91]
データレイク は構造化/非構造化データやバイナリ等の~
ファイル含めたローデータを一元的に格納するデータリポジトリ。~
(雑に言うと、雑にデータを放り込んでおく入れ物。

-特徴
--⾮常に安価で、優れた耐久性をもつ。~
“10 nines”の耐久性。安価。無限のスケーラビリティ。
--多様な形式の⽣データを蓄積可能。~
動画, ⾳声, テキスト, 構造化データ, ⾮構造化データ
--オープンで標準のフォーマット。~
Parquetフォーマット, 多種多様なツールが対応可能な形式

-課題
--データ処理・扱いに関する課題~
---データを追加することが難しい。~
新しいデータを追加すると正しくない読み取りが⾏われる。
---既存データの変更が難しい。~
GDPRなどの規制対応で既存データの細かな変更が必要。
---ジョブエラー時の対応が難しい。~
半分のデータがデータレイクに追加され、残りが消えてしまう。

--⼀貫性・データ管理に関する課題
---リアルタイム連携が難しい。~
ストリーミングとバッチデータを混合すると⼀貫性が保てなくなる。
---データ履歴の管理が難しい。~
規制対象システムの場合、再現性、監査、ガバナンスが必要。
---巨⼤メタデータの扱いが難しい。~
⼤規模なデータレイクではメタデータ⾃体が⼤量で管理が難しい。

--処理性能・データ品質に関する課題
---“膨⼤なファイル”の扱いが難しい。~
データレイクは数百万の⼩さなファイルの処理には適していない。
---最⾼の処理性能担保が難しい。~
性能改善のためにデータをパーティション化することなど変更が困難。
---データ品質の担保が難しい。~
全てのデータが正確で⾼品質であることを保証することは、常に課題。

***(データ・クレンジング) [#e0fa2951]
-[[データレイク>#w2d56f91]]から抽出したデータを[[DWH>#f38a28c0]]に格納するために、~
整合されたデータ属性やコード体系などに合うように変換及び修正を行う処理

-従来は、[[EAI/ETL]]で行っていた。
-昨今の[[ビッグデータ]]のコンテキストでは、~
[[分散処理のプロダクト>分散処理#yc726057]]が使用される傾向にある。

***データウェアハウス(DWH) [#f38a28c0]
[[(データ・クレンジング)>#e0fa2951]]により処理された~
[[データレイク>#w2d56f91]]より、より洗練されたデータを格納する。

-従来のデータウェアハウス(DWH)は、
--業務データを長期的に蓄積し管理したもの。
--基幹系システムとは別に構築され、経営的意思決定のための~
ビジネス インテリジェンス(BI)や[[データマイニング>#ffd92f5f]]等に利用される。

-しかし、以下のサポートに課題がある。
--動画、⾳声、テキスト
--オープンなフォーマットでの格納
--[[ストリーミング処理>分散処理:ストリーム系]]
--機械学習、深層学習

-昨今のビッグデータのコンテキストで、対応が可能になってきている。

***(特定データ切出) [#y4a5e5fc]
-[[DWH>#f38a28c0]]中の特定データを[[データマート>#la758647]]に切出す処理。

-従来は、[[EAI/ETL]]で行っていた。
-しかし、昨今の[[ビッグデータ]]のコンテキストでは、~
[[分散処理のプロダクト>分散処理#yc726057]]が使用される傾向にある。

***データマート [#la758647]
-[[DWH>#f38a28c0]]に保存されたデータの中から、~
特定の部門やユーザの使用目的に応じて特定のデータを切り出し、~
別のデータベースに整理したもの。

-従来のデータマートは、[[多次元データベース>#hd76f1af]]として作成されていた。

-しかし、昨今の[[ビッグデータ]]のコンテキストでは、[[データパイプライン>ビッグデータ#t482d866]]の末端に位置し、
-- 分析超並列処理(MPP)データベース
--インメモリ・データベース

>などが利用されるようになってきている。

***多次元データベース [#hd76f1af]
-データ分析に特化したデータベースで、[[OLAP>#u527f8b9]]の[[データマート>#la758647]]に用いられる。

-RDBのデータ構造でも構築可能だが(ROLAP)、~
RDBより分析性能の良い独自のデータ構造もある(MOLAP)。

-多次元データベースは、多次元モデルのスター・スキーマ構造で構成される。
--データ自体を蓄積するファクト・テーブル(非正規化する)
--分析軸を設定するディメンション・テーブル(高速化のためにキーや集計値以外はを追い出す)
--このようにして作成された多次元データを、[[OLAP>#u527f8b9]]キューブと呼ぶ。

-多次元データを分析する。
--Multidimensional Expressions (MDX)でクエリを行う。
--クエリの結果セットのカラムは、以下の様に分類される。
---ディメンジョン:グループを表示する列
---メジャー:集計値を表示する列

***[[レイクハウス>https://techinfoofmicrosofttech.osscons.jp/index.php?Azure%20Databricks#j83930a1]] [#f035f14e]
-分散処理基盤の発達に伴い誕生
-[[データレイク>#w2d56f91]]と[[データウェアハウス(DWH)>#f38a28c0]]の特徴を併せ持つ。
-オンデマンドで、[[データレイク>#w2d56f91]]上のデータを[[データ・クレンジング>#e0fa2951]]

**分析に関連した用語 [#v26ce9a5]

***データディスカバリ [#e82a6237]
-[[DWH>#f38a28c0]]や[[データマート>#la758647]]と組み合わせて利用されてきた経営者向けの可視化ツール・システム
-対話的にデータを可視化することで価値ある情報を見つけようとするプロセス

***オンライン分析処理(OLAP) [#w08ddd0e]
エンドユーザが[[多次元データベース>#hd76f1af]]等の[[データマート>#la758647]]を自由に検索し、~
問題発見・解決するための、分析を主とした利用形態

→ [[詳細>#u527f8b9]]

***データマイニング(DM) [#ffd92f5f]
-明示されておらず今まで知られていなかったが、~
役立つ可能性があり、かつ、自明でない情報を、~
[[DWH>#f38a28c0]]や[[データマート>#la758647]]のデータから抽出する。

-通常は想像が及びにくい、ヒューリスティクな~
知識獲得が可能であるという期待を含意している。

→ [[詳細>#e41307d0]]

*詳細 [#f26bfbc3]

**BIツール(可視化 [#j255e469]

***概要 [#bce29d46]
-[[データマート>#la758647]]のデータの[[可視化>データ分析#v5084e84]]に適したツール~

-古くは、[[OLAP用>#u527f8b9]]の[[多次元データベース>#hd76f1af]]をソースとしていたが、~
最近は、それ以外のデータベースが利用されるようになってきた。
--MPPデータベース
--インメモリ・データベース

-[[データディスカバリ>#e82a6237]]を行う色々な利用形態
--[[アドホック分析>データ解析#l43753a6]]用のツール
--[[ダッシュボード>データ解析#xdaf8a56]]・ツール
--[[モニタリング>データ解析#e02e4838]]・ツール

***分析方法 [#u1c4f372]
1つのデータを多角的に分析する
-全体を俯瞰
-KPIを一覧
-対話的に条件を変更

***プロダクト [#u6f83f4e]
-Tableau
-QlikView
-[[Power BI>https://techinfoofmicrosofttech.osscons.jp/index.php?Power%20BI]]
-SAS Visual Analytics
-MotionBoard(国産)

**オンライン分析処理(OLAP) [#u527f8b9]
-OLAP(Online Analytical Processing)
-RDBの生みの親でもある E.F.Codd 博士が生み出した言葉~
「RDB は、基幹系処理(≒OLTP)を行うために理論化されたものであり、分析処理(≒OLAP)には向かない」~
と言って、分析処理に関する「OLAP」を提唱したのが語源 ... 参考:[[wikiペディア>https://ja.wikipedia.org/wiki/OLAP#.E8.A3.BD.E5.93.81]]

***ディメンションとメジャー [#x8c07960]
-データセットの中に存在する属性か、計算した結果取得した派生属性のいずれか。
-データセットをそれぞれディメンションもしくはメジャーという概念として捉える。
-これらを組み合わせて使用してデータ集計することで、様々なデータビジュアライゼーションが可能となる。

-ディメンション~
データをグループ化、分離、フィルタリングする、分析の切り口としての属性
--データ分析を行う際には、様々な切り口でデータを分割する。
--ディメンションの例として、都道府県別、月別、商品カテゴリ別などが挙げられる。
--主に属性を使用するが、年代別などの数値範囲を使用することもできる。

-メジャー~
分析の対象とする測定可能な数値属性(単純にディメンションの集計結果など)
--「商品カテゴリ」ディメンションの場合、
---「売上金額」を集計した「商品カテゴリ別売上金額」。
---「決済数」を集計した「商品カテゴリ別決済数」。
---「購買点数」を集計した「商品カテゴリ別購買点数」。
--主に数値を使用するが、過去データと比較した上昇・維持・低下の評価属性もメジャー

***解析手法 [#p8a008cb]
-[[クロス集計分析]]

-また、得られた二次元表をEXCELなどの表計算ソフトに取り込み、~
表計算ソフトの機能を利用して、様々な分析を行うことができる。

***機能の例(SQL Server [#fd192c94]
リレーショナル データベースなどの外部データ ソースから、~
集計したデータを含む多次元構造を設計、作成、および管理できる。

**データ マイニング(DM) [#e41307d0]

***基礎 [#ge614fe5]
-[[統計学>統計解析]]、[[人工知能等>人工知能(AI)]]の技法を適用することで知識を取り出す技術。

--[[統計学>統計解析]]:
---データの特徴
---説明変数で分類
---目的変数と説明変数の関係(集約、予測)

--[[人工知能等>人工知能(AI)]]
---エンリッチメント
---...

-X マイニング

--[[テキスト マイニング>言語処理(AI)#ec90b2d0]]~
---テキストデータから知識を取り出す
---その中でもウェブページを対象にしたものをウェブ マイニングと呼ぶ。

--イメージ マイニング~
大量の画像データから知識を取り出す手法

--プロセス マイニング~
大量のプロセスのデータから知識を取り出す手法

-参考:[[機械学習 - 教師なし学習>機械学習(machine learning)#p3ab14a7]]

***解析手法 [#jbd1c0de]
-[[データ分析 > 分析の目的と手法>データ分析#k6ccf8ee]]
-[[データマイニング(DM)- CRISP-DM]]
-[[データマイニング(DM)- DataSet]]

***プロダクト [#a6010f57]
-[[データマイニング(DM)- Excel]]
-[[データマイニング(DM)- KNIME]]
-[[データマイニング(DM)- Python]]
-[[データマイニング(DM)- Python - DL]]

*参考 [#t82e8d1b]




トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS