データ分析用語集

データ分析用語集

データ分析用語の中で、特に重要な用語をいくつかピックアップしました。データ分析ツールデータ活用については、別のページで詳しくご紹介しています。

用語集

アルゴリズム
データサイエンスの分野では、アルゴリズムは反復ステップをつなげたもののことを指し、一般的にブール論理を使って記述します。ごく簡単な例を挙げると、“IF A=0 THEN SET B= 2” のようなものです。アルゴリズムの開発と実装には様々なツールや手法を用いて、Python やR などのプログラミング言語によるコーディングや、機械学習ソフトウェアのフレームワークを利用する方法があります。定番のアルゴリズムには、線形回帰、ロジスティック回帰、決定木、ランダムフォレスト、ナイーブベイズ、k 近傍法(KNN)などがあります。


イベント処理
イベント処理(またはストリーム処理)は、(通常リアルタイムに流れ込む)データストリームの中の“イベント” を表すデータポイントに対して何らかの操作を実行することです。代表的な操作は集計、統合、比較などの計算処理です。リアルタイムのデータだけでなく、専用の時系列データベース内のヒストリカルデータを扱うこともあります。


機械学習(ML)
この用語の生みの親であるArthur Samuel は、機械学習を「明示的なプログラムなしに学習できる能力をコンピューターに与える研究分野」と定義しました。

つまり、システムに実装されたアルゴリズムが自ら学ぶことを指し、機械学習システムは拡張性が高く、新たな変数が加わっても素早く適応できるため、結果を予測するのに人間の手を借りる必要はありません。

機械学習の鍵を握るのは“訓練データセット” です。訓練データセットとは、既存の手法によって導き出したパターンおよび知見の情報が付属したヒストリカルデータセットのことで、このデータセットを読み込ませて機械学習システムを“訓練” することで、未知のデータ入力から結果を予測すること が可能になります。


決定木(ディシジョンツリー)
ノードを使って意思決定を視覚的に表現したものです。ある決定をした場合に起こりうる結果を1 つ1 つ枝分かれさせた、いわば樹形図で、決定木に基づくアルゴリズムは機械学習システムでは定番です。精度と安定性に優れており、使用する側にとっても報告を受ける側にとっても結果がわかりやすくなっています。


コーディング不要(コードフリー)
プログラミングコードの記述やデバッグを行うことなく高度なソフトウェアアプリケーションを開発できることを意味します。コーディング不要のツールは一般的にビジネスユーザー向けであり、アクセス権のあるデータを取得および分析して、何らかの予想をするシステムを構築することができます。


人工知能(AI)
今や何でもAI とひとくくりにされていますが、そもそもAI とは膨大な量のデータセットの中にパターンを見つけて有益な知見を引き出し、そのデータに基づいて予測をすることができるテクノロジーのことを指します。人間の思考プロセスを模倣するシステムの実現を目指すものですが、現実的には知的なアシスタントに位置づけるのが現時点では最適な活用方法といえるでしょう。たとえば、数百万件に上る発注書や船荷証券の山から超過請求や引き渡しの問題などを探し出してもらうといったことを可能にします。


説明可能なAI
簡単に言えば、専門家でない人間でもAI システムのアルゴリズムの思考過程を理解できるシステムのことです。視覚的に読み取れない結果しか出せない“ブラックボックス型” のAI とは対極に位置します。


ディープラーニング(深層学習)
階層の深い(隠れ層が2層以上)の「ニューラルネットワーク」と呼ばれるアルゴリズムを使い、機械がデータから自動で学習する方法のことを言います。中間層を2層以上と多くなることで多くのパラメータを学習することができるようになり、学習精度が向上します。機械学習において難しいとされる特徴量の変数設定も、データを読み取り自動的に学習することができます。


データガバナンス
おおもとのデータまで遡れるようにすること、およびデータの修正や追加は資格のある人間しかできないことを定めた、データ管理に関する規則と手続きの集合のことです。

Data Governance Institute は、「情報に関連したプロセスの決定権と説明責任を定めた体系のことであり、各人が利用できる情報の種類、その情報に対して実行できるアクション、利用の時期、条件、方法についてあらかじめ合意したモデルに従って実行される」と定義しています。適切なデータガバナンスを敷けば、膨大なデータの管理に伴うコストを削減し、規制やコンプライアンス関連の手続きの再現性と正確性を確保し、さらにはデータの価値と有用性を高めることができます。


データクレンジング
不正確、不完全、無関係なデータや重複したデータ、フォーマットに問題があるデータを除外または修正する作業のことです。データが“汚れている”と機械学習などの分析アプリケーションの結果が“汚染” され、結論や予測の正確性が揺らいでしまうため、データプレパレーションプロセスではデータクレンジングが欠かせません。


データサイエンス
情報科学、統計学、アルゴリズムなどを用いて、データから新たな科学的および社会に有益なインサイト(知見)を発見する研究分野を指します。


データ準備 / データプレパレーション
機械学習予測分析ビジュアル分析ビジネスインテリジェンス(BI)などのアプリケーションでデータを使用できるようにするための準備プロセスのことで、データの収集、結合、構造化、整理などが含まれます。データプレパレーションシステムは、形式もデータタイプも異なる様々なソースに接続してデータを集め、そのデータをクレンジングし、必要であれば正規化できる必要があります。同時に、新たなエラーが混入しないような信頼性と、行と列から成るような一貫した形式でデータを出力できる機能も求められます。


データの可視化(データビジュアライゼーション)
数値データをグラフィカルに表示することを意味します。表計算ソフトウェアで生成される単純な折れ線グラフや円グラフ、高度なインタラクティブダッシュボードなど、あらゆるものがデータの可視化に含まれます。


データのモデリング
データ分析分野では、ヒストリカルデータに基づいて未来の事象を正確に予測するためのアルゴリズムの集合を構築することを指します。ビジネスユーザーでも、意思決定の参考にできるような予測値をはじき出せるのが理想のモデルです。


データ分析
データ分析とは、ビッグデータ等のデータを分析してインサイトを引き出すことで、消費者の行動の予測や、その予測に基づく対策の処方をサポートする手法です。分析したデータから得られたインサイトは、組織の成長や収益、成功を脅かす要因に対する予防的な措置に活かすことができ、意思決定に不可欠なものです。


ビッグデータ
あちこちで聞く用語ですが、簡単に言えば、1 台のコンピューターに収まりきらないほど膨大なデータの集合のことです。SQLデータベースやExcel などの従来のツールでは扱えないことが多く、ビッグデータをうまく管理するには専用のツールが必要になります。ほとんどの組織ではビッグデータのリソースを活用しきれていませんが、正しく分析すれば、顧客の行動、オペレーション、製造や配送効率の改善余地などについて有益な情報を得ることができます。


リアルタイムデータ
リアルタイムデータ(“ストリーミングデータ” とも)は開始や終了のないデータの流れのことで、個々のデータポイントは規則的または不規則的な(たいていはミリ秒単位の)間隔で現れます。リアルタイムデータはほぼすべてのオペレーションで生成され、データソースはセンサーや取引処理システムなど多岐にわたります。

伝送は通常メッセージバス(メッセージキュー)を介して行われるため、遠隔点間の大量のデータ伝送も超低遅延で完了できます。一般的なメッセージバスにはMQTT、Solace、ActiveMQ などがあります。

データ分析に関連する無料ガイドや資料

金融犯罪防止のためのデータ分析活用ガイド

金融犯罪の手口は無数に存在し、その範囲も保険、政府の補助金、小売店の返品、クレジットカードでの購入、税情報の過少申告や虚偽申告、住宅ローンや消費者ローンの申請など多岐にわたります。 不正を防ぐためのテクノロジーとビジネスプロセスには、柔軟な設計と不正防止に関わる担当者全員が理解できるシンプルさが求められるほか、新しい手口が登場するたびに一から作り直すことなく対応できる機敏さも欠かせません。 組織全体に目を光らせて不正を検知するには、全チームおよび全部門のデータを分析用のデータに含める必要があります。 不正アナリストの専門知識に加えて機械学習(ML)ベースの予測モデルからの知見があれば、証拠に基づく防止策を強化し、金融犯罪の新たな手法に迅速に対応することが可能になります。 本ガイドブックでは、機械学習(ML)とデータ可視化が、リスク評価に基づく意思決定を迅速に下す際の情報の質を高め、損失を減らすことに役立つ理由を解説します。 <目次> ・不正を検知する ・ビジネスルールの概要と不正検知における重要性 ・不正検知にディープラーニングを応用する ・高頻度取引(HFT)を用いた不正行為の検知にストリーミング分析を応用する ・Altair のソリューション

Brochures

ビジネスの成長を支えるデータサイエンスへの手引き

現代の企業はかつてないほどに膨大なデータを抱え、データサイエンスチームはそうしたテラバイトあるいはペタバイト規模のデータの海からインサイトを引き出し、実行可能なアクションへと落とし込むことが求められています。 多様な統計ツールや分析手法を用いてデータサイエンスを実践すれば、意思決定の質の向上、新たなビジネスチャンスの発見、そして確かな量的データに基づく決断といった付随的なメリットも期待できます。最新のデータサイエンスモデルでは、巨大なデータセットから迅速にアウトプットを得ることができるようになりました。しかも、リアルタイムまたはリアルタイムに限りなく近いスピードで、です。モデルのアルゴリズムは、刻々と変化する消費者の行動パターンに適応できるほどに洗練されているため、こうしたアウトプットは未来に何が起きるかを予測するうえで一助になります。市場にどのような新商品や新サービスを投入すべきか、コスト管理とリスク低減をどのように行うべきか、そうした決断をするために、データサイエンスの力が不可欠になっています。 ・なぜ今データサイエンスか ・機械学習  - Altair Knowledge Studioで機械学習を実践する  - 債権回収の傾向スコア  - 信用リスクの軽減  - 不正リスクの軽減 ・Altair Knowledge Studio

Technical Document

ATM不正利用ケースから考える、金融機関における不正リスク管理態勢の強化

IT技術の発展により、金融取引のデジタル化・高度化が進む一方、それらを対象とした金融犯罪も高度化しています。不審なスプーフィング(見せ玉)、クォートスタッフィング、馴合取引などの不正行為が疑われるケースを洗い出すなど、金融機関は常時から、膨大な情報の中から金融犯罪や不正を瞬時に検知し、あらゆるリスクへ対応することが求められています。 また、背負っているリスクに基づいてトレーダーにスコアを付け、現在と過去のパフォーマンスを比較し続けるなど、リアルタイムおよびヒストリカルなデータを分析することも必要です。 Altairのデータ分析ソリューションは、すべての取引活動の可視化と不正行為防止を実現します。本ウェビナーで、ATMにおける不正使用予測検知を例に解説します。 【セミナーの内容】 ・金融機関におけるリスク管理と課題 ・ATMにおける不正使用予測検知事例のご紹介 ・Altair Knowledge Worksのご紹介

Webinars

金融機関様向け「今求められる業務効率化とは? データ可視化を活用したデータ分析」

2020年5月28日開催のニッキン主催「FITウェビナー」にてKnowledge Worksのご紹介をさせていただきました。 テーマ「今求められる業務効率化とは?データ可視化を活用したデータ分析」 金融機関をはじめとした日本企業では、テクノロジーを活用したデジタル変革(DX)による業務効率化が急務となっています。 本セミナーでは、テキストやPDFファイル等の自動データ化、高度な予測分析と機械学習、ストリーミングデータとリスクの可視化など、人的作業によるオペレーショナルリスクの軽減、データプレパレーション作業の短縮など、業務効率化を実現するソリューションをご紹介します。

Webinars
資料一覧
データ分析ツールを見てみる