この時代に データレイク そしてペタバイト規模のデータベースでは、CSV、テキスト、およびExcelファイルの形式でデータを受信する頻度が非常に高いことに驚いています。現代の分析は機械学習アルゴリズムの最先端の進歩に焦点を当てていますが、 データ分析 は、異種のデータ型を検索、コンパイル、およびラングリングする手動プロセスです。
金融アナリストにとって、データはExcelスプレッドシートとして届くことがよくありますが、同じように、CSVへのデータダンプまたはSQLデータベースへのクエリです。場合によっては、データがわかりにくいレイアウトで配置されていたり、分析に必要なすべてのコンポーネントが含まれていないことがあります。このデータのスクラブに費やされた時間は、アナリストにとって貴重な時間ですが、このタスクは、許容される必要のある悪として受け入れられることがあります。
この一般的な問題の解決策は、実際には非常にアクセスしやすいものです。ExcelとPower BIには、ほとんどのユーザーが認識していない、名前が付けられたデータ変換ツールのセット全体があります。 Get&Transform (以前はPower Queryと呼ばれていました)。埋め込まれた抽出、変換、および読み込み(ETL)機能を使用すると、金融アナリストはデータソースにシームレスにリンクし、より迅速に洞察を得ることができます。
ExcelまたはPowerBIにロードするデータをティーアップするとき、通常、データに対していくつかの変換を実行する必要があります。データ操作の例としては、次のものがあります。
次の図では、Get&Transformが、データが読み込まれる前にデータを前処理するという面倒な役割を果たしていることがわかります。
Get&Transformの使い方を学ぶ価値があるのはなぜですか?さて、私がこの機能を個人的に使用した目的を見ると、次のような柔軟なツールセットが提供されています。
通常、新しいデータを受け取ったら、Power Pivotにロードする前に、Get&Transformを使用してデータを探索します。これにより、どのような変換が必要かを確認し、データに対していくつかのピボットとグループ化をすばやく実行して、分析のフレームワークを作成できます。多くの場合、この段階で、より多くのデータが必要であるか、データの問題があることがわかります。 Excelベースのプラットフォームを使用することで、データソースをすばやく反復して、これらのデータの異常を見つけることができます。
最終的に、Excelにとどまるか、データ分析を別のプラットフォームに移動するかの決定は、対象者と分析の再現性と分布に依存します。クライアントがExcelのみを使用している場合、ほとんどの場合、Get&Transformを使用してデータを読み込み、Power Pivotを使用して分析を実行し、Excelを使用してピボットテーブルとグラフを作成します。クライアントにとっては、すべてExcel内に格納されているため、これはシームレスに感じられます。
ただし、私のクライアントの場合:
cvvでハッキングされたクレジットカード
次に、Get&Transformを最初のデータ探索にのみ使用し、次に重い作業をに移動します R 。
以前のバージョンのExcelでは、Power Queryは、ETL機能を支援するためにインストールできるアドインでした。ただし、Excel2016とPowerBIでは、これらのツールはより緊密に統合されています。 Excel 2016では、次の方法でアクセスできます。 データ タブ、次に データの取得と変換 セクション。
Power BIでは、機能は ホーム タブ、 外部データ セクション。
この記事では、私の例はPower BIで行われますが、インターフェイスはExcelとほぼ同じです。違いが生じたときに指摘するので、チュートリアルは両方のタイプのユーザーにとって意味があるはずです。
このチュートリアルを支援するために、アウトドア用品や衣料品を販売する架空の小売業者の販売データの例をいくつか作成しました。これらの各例では、データダンプの現実的な方法を示すために、さまざまな方法でデータが生成されます。
最初の例として、CSVファイルへの大きなデータダンプとして表示されるデータを確認します。複雑な要因は、データがさまざまなストアを表す複数の列で表示されることです。理想的には、データをインポートして、より使いやすいレイアウトに変換したいと考えています。
以下は、生のCSVがどのように見えるかのスクリーンショットです。
なぜこれを変更したいのですか?これらのアプリケーションで可能な関係機能を利用するため。これについては、ディスカッションでさらに詳しく説明します。
今のところ、データを「広くて短い」構造ではなく、「狭くて高い」構造として見る必要があると仮定しましょう。最初のステップはCSVをロードすることです。次に、データの「ピボット解除」を開始します。
ご覧のとおり、データの最終的な構造は最初のデータよりも狭く、はるかに長くなっています。もう1つのポイントは、さまざまなアクションをクリックすると、右側のツールがクエリの作成に使用される適用済みステップのリストを生成していることです。これは後で再検討されるため、バックグラウンドで行われていることを理解することが重要です。
Get&Transformは、ほとんどの場合、PowerBIとExcelの間で外観と動作が同じです。ただし、Excelでは、をクリックした後 閉じてロード 、追加のプロンプトが1つあります。次の図では、データをロードするかどうかを切り替えることができます。
さらに、私たちはまたするかどうかのオプションが与えられます このデータをデータモデルに追加します 。このチェックボックスをオンにすると、データが パワーピボット テーブル。 Power Pivotでデータを分析する場合は、選択することをお勧めします 接続のみを作成する そして、 このデータをデータモデルに追加します オプションが選択されています。データがExcelの行制限内にあり、Excelで分析を実行する場合は、[ テーブル 。
給与を契約レートに変換する
次のクリップでは、データを長くて細いようにフォーマットした理由は、店舗だけでなく地域や州ごとの売上を分析できるようにするためであることがわかります。このタスクを実行するために、各ストアを地域と州にマップするテーブルをインポートします。これらのさまざまなグループによる売上を示すレポートをすばやく作成できることを以下に示します。
ExcelまたはPowerBIでのデータ変換のこのタイプの機能が、次のような動的なデータのグループ化がある場合にどのように強力に適用できるかを想像できます。
この記事ではCSVおよびその他のExcelファイルについて説明しますが、Get&Transformはさまざまなデータ型に対応しています。クエリが作成されると、データの変更に応じて時間の経過とともに更新できます。
文字列を操作するGet&Transformの機能を示すために、会社の総勘定元帳(GL)からの会計トランザクションを示すテキストファイルを模倣する別のデータセットを作成しました。
アカウント番号と名前が同じ文字列にどのように表示されるかに注意してください。 Power BIでは、アカウント番号と名前を別々のフィールドに簡単に解析できます。
このビデオでは、列を分割した後、ツールが[アカウント]フィールドの新しい左側が数値であると推測し、「タイプ1の変更」ステップを作成していることがわかります。最終的にこのフィールドを文字列として必要とするため、適用されたステップの下でステップを手動で削除できます。
次に、同じデータを取得して、アカウントカテゴリへのマッピングを含むアカウントのチャートを作成します。
なぜこれらすべての手順を実行して、いくつかのアカウント番号をマッピングするのでしょうか。実際の総勘定元帳は、数百または数千のアカウントになる可能性があります。これまでに示したように、このクイックマッピングクエリは、追加の作業なしでそのレベルにスケーリングされます。
Get&Transformは、さまざまなデータソースをサポートしています。完全なリストではありませんが、以下にいくつかの例を示します。
テキストファイル Excel フェイスブック Adobe Analytics グーグルアナリティクス Salesforce Azure Redshift スパーク SQLサーバー SAP HANA Teradata Google BigQuery個人的には、上記のリストにある接続の約半分しか試していません。私が使用した各コネクタはかなり堅牢です。面倒な作業をせずに、生データから洞察を得ることができました。同様に重要なことは、それは異なるデータソース間のバリデーターとして機能し、最終出力が正規化されたレベルの品質管理を持つことを保証します。
バックグラウンドでは、ツールのボタンをクリックするか選択するたびに、Get&Transformがコードを生成します。以下は、作成したアカウントマッピングクエリのコードにアクセスする方法の例です。
コードはという名前の関数型言語を使用しています M 、基本的なユースケース用に自動生成します。ただし、より複雑なデータラングリングの場合は、独自のコードを編集および記述できます。ほとんどの場合、私はこのコードに小さな変更を加えるだけです。より複雑な変換では、ほとんどのコードを最初から段階的に書くことがあります 一時テーブル 、またはより複雑な実行用 参加する 。
100万行を超えてエクスポートしようとすると、Excelは限界に達する傾向があります。 Get&Transformを使用して数百万の行を変換した場合、グループ化されていない行を出荷する唯一の方法は、面倒なハックまたは回避策を使用することです。また、Get&Transformクエリは、特に複数のデータソースと結合を使用している場合、複数のユーザーにデプロイするには不安定になる可能性があることもわかりました。そのような場合、私は常にRを使用して、複製可能なデータラングリングを展開します。最後に、Excelはより高度なデータモデリング用に構築されていません。線形回帰は非常に迅速に実行できますが、それを超えると、より厳密なプラットフォームを使用する必要があります。
そうは言っても、ほとんどのクライアントが最も快適なのはExcelだと思います。 Excelは、依然として金融アナリストの武器庫で最も重要なツールです。 Get&Transform機能を組み込むことにより、ExcelとPower BIは、受け入れることができるさまざまなデータソースを通じてさらに強力になります。
抽出、変換、および読み込みは、さまざまなソースから一元化されたデータウェアハウスにデータを移動するプロセスです。
Power BIは、Microsoftのビジネス分析ソフトウェアです。データを視覚化し、自動化されたレポートとダッシュボードを作成するための詳細な機能を提供します。
データレイクは、組織内のすべてのデータソースの単一のリポジトリです。これには、構造化および非構造化データのポケットが含まれる場合があり、最終的には必要なときにいつでも利用および処理できます。