「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>BI / AI]] --ビジネス インテリジェンス(BI) --[[人工知能(AI)]] *目次 [#t801890c] #contents *概要 [#v4f56464] 経営・会計・情報処理などの用語で、 **目的 [#xb4ae1d9] -ビジネス上の意思決定の支援 -企業などの組織のデータを、収集・蓄積・分析・報告することにより、~ 経営判断上の過去・現在・未来予測などの視点を提供し意思決定に役立てる。 **機能 [#l7c91a06] ***データ分析 [#oc80b210] -[[データディスカバリ>#e82a6237]]等、~ 単純なグラフなどの記述統計的な可視化 -回帰分析や最小二乗法など推論統計的な推論 ***[[オンライン分析処理(OLAP)>#w08ddd0e]] [#d92f2044] ***[[データマイニング(DM)>#ffd92f5f]] [#fa6b9f78] -データマイニング -テキストマイニング -イメージマイニング -プロセスマイニング ***その他 [#ra2c861f] -複合イベント処理 -ビジネス業績管理(BPM) -ベンチマーキング -予測分析 -規範分析 *用語 [#c51e327c] [[ビッグデータ]]の流れで遡って...。 -ストアに関連した用語~ → [[データレイク>#w2d56f91]]~ → ([[データクレンジング>#e0fa2951]])~ → [[データウェアハウス(DWH)>#f38a28c0]]~ →([[特定データ切出>#y4a5e5fc]])~ → [[データマート>#la758647]] -分析に関連した用語 --[[オンライン分析処理(OLAP)>#w08ddd0e]] --[[データディスカバリ>#e82a6237]] --[[データマイニング(DM)>#ffd92f5f]] **ストアに関連した用語 [#r2688335] ***データレイク [#w2d56f91] データレイク は構造化/非構造化データやバイナリ等の~ ファイル含めたローデータを一元的に格納するデータリポジトリ。~ (雑に言うと、雑にデータを放り込んでおく入れ物。 -特徴 --⾮常に安価で、優れた耐久性をもつ。~ “10 nines”の耐久性。安価。無限のスケーラビリティ。 --多様な形式の⽣データを蓄積可能。~ 動画, ⾳声, テキスト, 構造化データ, ⾮構造化データ --オープンで標準のフォーマット。~ Parquetフォーマット, 多種多様なツールが対応可能な形式 -課題 --データ処理・扱いに関する課題~ ---データを追加することが難しい。~ 新しいデータを追加すると正しくない読み取りが⾏われる。 ---既存データの変更が難しい。~ GDPRなどの規制対応で既存データの細かな変更が必要。 ---ジョブエラー時の対応が難しい。~ 半分のデータがデータレイクに追加され、残りが消えてしまう。 --⼀貫性・データ管理に関する課題 ---リアルタイム連携が難しい。~ ストリーミングとバッチデータを混合すると⼀貫性が保てなくなる。 ---データ履歴の管理が難しい。~ 規制対象システムの場合、再現性、監査、ガバナンスが必要。 ---巨⼤メタデータの扱いが難しい。~ ⼤規模なデータレイクではメタデータ⾃体が⼤量で管理が難しい。 --処理性能・データ品質に関する課題 ---“膨⼤なファイル”の扱いが難しい。~ データレイクは数百万の⼩さなファイルの処理には適していない。 ---最⾼の処理性能担保が難しい。~ 性能改善のためにデータをパーティション化することなど変更が困難。 ---データ品質の担保が難しい。~ 全てのデータが正確で⾼品質であることを保証することは、常に課題。 ***(データ・クレンジング) [#e0fa2951] -[[データレイク>#w2d56f91]]から抽出したデータを[[DWH>#f38a28c0]]に格納するために、~ 整合されたデータ属性やコード体系などに合うように変換及び修正を行う処理 -従来は、[[EAI/ETL]]で行っていた。 -昨今の[[ビッグデータ]]のコンテキストでは、~ [[分散処理のプロダクト>分散処理#yc726057]]が使用される傾向にある。 ***データウェアハウス(DWH) [#f38a28c0] [[(データ・クレンジング)>#e0fa2951]]により処理された~ [[データレイク>#w2d56f91]]より、より洗練されたデータを格納する。 -従来のデータウェアハウス(DWH)は、 --業務データを長期的に蓄積し管理したもの。 --基幹系システムとは別に構築され、経営的意思決定のための~ ビジネス インテリジェンス(BI)や[[データマイニング>#ffd92f5f]]等に利用される。 -しかし、以下のサポートに課題がある。 --動画、⾳声、テキスト --オープンなフォーマットでの格納 --[[ストリーミング処理>分散処理:ストリーム系]] --機械学習、深層学習 -昨今のビッグデータのコンテキストで、対応が可能になってきている。 ***(特定データ切出) [#y4a5e5fc] -[[DWH>#f38a28c0]]中の特定データを[[データマート>#la758647]]に切出す処理。 -従来は、[[EAI/ETL]]で行っていた。 -しかし、昨今の[[ビッグデータ]]のコンテキストでは、~ [[分散処理のプロダクト>分散処理#yc726057]]が使用される傾向にある。 ***データマート [#la758647] -[[DWH>#f38a28c0]]に保存されたデータの中から、~ 特定の部門やユーザの使用目的に応じて特定のデータを切り出し、~ 別のデータベースに整理したもの。 -従来のデータマートは、[[多次元データベース>#hd76f1af]]として作成されていた。 -しかし、昨今の[[ビッグデータ]]のコンテキストでは、[[データパイプライン>ビッグデータ#t482d866]]の末端に位置し、 -- 分析超並列処理(MPP)データベース --インメモリ・データベース >などが利用されるようになってきている。 ***多次元データベース [#hd76f1af] -データ分析に特化したデータベースで、[[OLAP>#u527f8b9]]の[[データマート>#la758647]]に用いられる。 -RDBのデータ構造でも構築可能だが(ROLAP)、~ RDBより分析性能の良い独自のデータ構造もある(MOLAP)。 -多次元データベースは、多次元モデルのスター・スキーマ構造で構成される。 --データ自体を蓄積するファクト・テーブル(非正規化する) --分析軸を設定するディメンション・テーブル(高速化のためにキーや集計値以外はを追い出す) --このようにして作成された多次元データを、[[OLAP>#u527f8b9]]キューブと呼ぶ。 -多次元データを分析する。 --Multidimensional Expressions (MDX)でクエリを行う。 --クエリの結果セットのカラムは、以下の様に分類される。 ---ディメンジョン:グループを表示する列 ---メジャー:集計値を表示する列 ***[[レイクハウス>https://techinfoofmicrosofttech.osscons.jp/index.php?Azure%20Databricks#j83930a1]] [#f035f14e] -分散処理基盤の発達に伴い誕生 -[[データレイク>#w2d56f91]]と[[データウェアハウス(DWH)>#f38a28c0]]の特徴を併せ持つ。 -オンデマンドで、[[データレイク>#w2d56f91]]上のデータを[[データ・クレンジング>#e0fa2951]] **分析に関連した用語 [#v26ce9a5] ***データディスカバリ [#e82a6237] -[[DWH>#f38a28c0]]や[[データマート>#la758647]]と組み合わせて利用されてきた経営者向けの可視化ツール・システム -対話的にデータを可視化することで価値ある情報を見つけようとするプロセス ***オンライン分析処理(OLAP) [#w08ddd0e] エンドユーザが[[多次元データベース>#hd76f1af]]等の[[データマート>#la758647]]を自由に検索し、~ 問題発見・解決するための、分析を主とした利用形態 → [[詳細>#u527f8b9]] ***データマイニング(DM) [#ffd92f5f] -明示されておらず今まで知られていなかったが、~ 役立つ可能性があり、かつ、自明でない情報を、~ [[DWH>#f38a28c0]]や[[データマート>#la758647]]のデータから抽出する。 -通常は想像が及びにくい、ヒューリスティクな~ 知識獲得が可能であるという期待を含意している。 → [[詳細>#e41307d0]] *詳細 [#f26bfbc3] **BIツール(可視化 [#j255e469] ***概要 [#bce29d46] -[[データマート>#la758647]]のデータの[[可視化>データ分析#v5084e84]]に適したツール~ -古くは、[[OLAP用>#u527f8b9]]の[[多次元データベース>#hd76f1af]]をソースとしていたが、~ 最近は、それ以外のデータベースが利用されるようになってきた。 --MPPデータベース --インメモリ・データベース -[[データディスカバリ>#e82a6237]]を行う色々な利用形態 --[[アドホック分析>データ解析#l43753a6]]用のツール --[[ダッシュボード>データ解析#xdaf8a56]]・ツール --[[モニタリング>データ解析#e02e4838]]・ツール ***分析方法 [#u1c4f372] 1つのデータを多角的に分析する -全体を俯瞰 -KPIを一覧 -対話的に条件を変更 ***プロダクト [#u6f83f4e] -Tableau -QlikView -[[Power BI>https://techinfoofmicrosofttech.osscons.jp/index.php?Power%20BI]] -SAS Visual Analytics -MotionBoard(国産) **オンライン分析処理(OLAP) [#u527f8b9] -OLAP(Online Analytical Processing) -RDBの生みの親でもある E.F.Codd 博士が生み出した言葉~ 「RDB は、基幹系処理(≒OLTP)を行うために理論化されたものであり、分析処理(≒OLAP)には向かない」~ と言って、分析処理に関する「OLAP」を提唱したのが語源 ... 参考:[[wikiペディア>https://ja.wikipedia.org/wiki/OLAP#.E8.A3.BD.E5.93.81]] ***ディメンションとメジャー [#x8c07960] -データセットの中に存在する属性か、計算した結果取得した派生属性のいずれか。 -データセットをそれぞれディメンションもしくはメジャーという概念として捉える。 -これらを組み合わせて使用してデータ集計することで、様々なデータビジュアライゼーションが可能となる。 -ディメンション~ データをグループ化、分離、フィルタリングする、分析の切り口としての属性 --データ分析を行う際には、様々な切り口でデータを分割する。 --ディメンションの例として、都道府県別、月別、商品カテゴリ別などが挙げられる。 --主に属性を使用するが、年代別などの数値範囲を使用することもできる。 -メジャー~ 分析の対象とする測定可能な数値属性(単純にディメンションの集計結果など) --「商品カテゴリ」ディメンションの場合、 ---「売上金額」を集計した「商品カテゴリ別売上金額」。 ---「決済数」を集計した「商品カテゴリ別決済数」。 ---「購買点数」を集計した「商品カテゴリ別購買点数」。 --主に数値を使用するが、過去データと比較した上昇・維持・低下の評価属性もメジャー ***解析手法 [#p8a008cb] -[[クロス集計分析]] -また、得られた二次元表をEXCELなどの表計算ソフトに取り込み、~ 表計算ソフトの機能を利用して、様々な分析を行うことができる。 ***機能の例(SQL Server [#fd192c94] リレーショナル データベースなどの外部データ ソースから、~ 集計したデータを含む多次元構造を設計、作成、および管理できる。 **データ マイニング(DM) [#e41307d0] ***基礎 [#ge614fe5] -[[統計学>統計解析]]、[[人工知能等>人工知能(AI)]]の技法を適用することで知識を取り出す技術。 --[[統計学>統計解析]]: ---データの特徴 ---説明変数で分類 ---目的変数と説明変数の関係(集約、予測) --[[人工知能等>人工知能(AI)]] ---エンリッチメント ---... -X マイニング --[[テキスト マイニング>言語処理(AI)#ec90b2d0]]~ ---テキストデータから知識を取り出す ---その中でもウェブページを対象にしたものをウェブ マイニングと呼ぶ。 --イメージ マイニング~ 大量の画像データから知識を取り出す手法 --プロセス マイニング~ 大量のプロセスのデータから知識を取り出す手法 -参考:[[機械学習 - 教師なし学習>機械学習(machine learning)#p3ab14a7]] ***解析手法 [#jbd1c0de] -[[データ分析 > 分析の目的と手法>データ分析#k6ccf8ee]] -[[データマイニング(DM)- CRISP-DM]] -[[データマイニング(DM)- DataSet]] ***プロダクト [#a6010f57] -[[データマイニング(DM)- Excel]] -[[データマイニング(DM)- KNIME]] -[[データマイニング(DM)- Python]] -[[データマイニング(DM)- Python - DL]] *参考 [#t82e8d1b]