新しいもののほとんど ディープラーニング リリース中のモデル、 特にNLPで 、非常に大きい:数億から数億の範囲のパラメータがあります 数百億 。
十分なアーキテクチャがあれば、 モデルが大きいほど 、それが持っているより多くの学習能力。したがって、これらの新しいモデルは膨大な学習能力を備えており、 非常に大きなデータセット 。
そのため、トレーニングを受けたデータセットの分布全体を学習します。これらのデータセットの圧縮された知識をエンコードしていると言えます。これにより、これらのモデルを非常に興味深いアプリケーションに使用できます。最も一般的なアプリケーションは次のとおりです。 転移学習 。転移学習は、事前に訓練されたモデルを微調整することです カスタムデータセット/タスク 、必要なデータがはるかに少なく、モデルは最初からトレーニングする場合に比べて非常に迅速に収束します。
事前にトレーニングされたモデルはコンピュータビジョンでも使用されますが、この記事では、コンピュータビジョンでの最先端の使用に焦点を当てます。 自然言語処理 (NLP)ドメイン。 Transformerアーキテクチャ これらのモデルで使用されている最も一般的で最も強力なアーキテクチャです。
でも BERT NLP転送学習革命を開始しました。 GPT-2 そして T5 モデル。これらのモデルは事前にトレーニングされています。特定のアプリケーションでモデルを微調整すると、評価指標が大幅に向上しますが、そのまま使用します。つまり、微調整は行いません。
GPT-2は、2019年にリリースされたとき、かなりの論争を巻き起こしました。 テキストの生成が非常に得意 、それはかなり引き付けました メディアの注目 AIの将来について多くの質問を投げかけました。
40 GBのテキストデータでトレーニングされたGPT-2は、 非常に大きなモデル を含む 膨大な量の圧縮された知識 インターネットの断面から。
GPT-2にはたくさんあります 潜在的なユースケース 。文の確率を予測するために使用できます。これは、テキストの自動修正に使用できます。次に、単語予測を直接使用できます オートコンプリートコンポーネントを構築するには コードを書くためのIDE(Visual Studio CodeやPyCharmなど)および 一般的なテキストの書き方 。自動テキスト生成に使用し、大量のテキストを自然言語分析に使用できます。
アジャイルチームの推奨サイズ
GPT-2のような事前トレーニング済みモデルの能力 一貫性のあるテキストを生成する とても印象的です。接頭辞テキストを付けて、次の単語、フレーズ、または文を生成するように依頼できます。
ユースケースの例は、製品レビューデータセットを生成して、肯定的なレビューと否定的なレビューで一般的に使用されている単語の種類を確認することです。
いくつかの例を見てみましょう。正の接頭辞「この映画が本当に気に入りました!」で始めた場合に得られるものから始めましょう。
サンプル1 | 絶え間ない危険にさらされているキャラクターの感情と、これらのイベントによって彼の内面の恐怖がゆっくりと克服された方法が大好きでした。彼が生き残ることにとても集中していることも大好きでした。しばらくの間でも、バットマンvsスーパーマンの何かが再び現れるように感じました。とにかく敵が最終的に現れることを常に知っていたからです:)エンディングのテーマも本当に私に固執しました...つまり、彼らはそうしなければなりませんでした... |
サンプル2 | それは私がやりたかったことを正確に実行しました。とても楽しいものでした。キャストは素晴らしかったし、IMDBですでに他のすべてを見た後、ストーリーはこれまでのところ理にかなっています。彼らの「力」(またはその欠如)のために太古の昔から地下都市にいることについてのヒントがありますが、彼らはそれほど多くを語っていません...私はそれが1つの大きな謎のようであり、今のところ他のいくつかの側面が私と一緒に来ると思いますでも…。それは… |
ご覧のとおり、 レビュー プレフィックスのどこにもありませんでしたが、ほとんどのレビューはタイトルの後にレビューの本文が続くため、モデルはその分布に適応する必要がありました。また、への参照に注意してください バットマンvsスーパーマン 。
別の例を見てみましょう。映画レビューの代わりに、「ごみ箱製品!」という負の接頭辞を使用して製品レビューを生成しようとします。買わないで。'
サンプル1 | また、これを庭や芝生の肥料として使用しないでください。魚や鳥が摂取すると、深刻な水害を引き起こす可能性があります。 Petsmart、PetSmart、Safewayなどの「良い」名前が多すぎる有機食料品店でオンラインで入手できるペットフードに農薬が含まれている可能性があるため、注意して使用してください。食品廃棄物はどの程度毒性がありますか。廃棄物はかなりの量をもたらす可能性があります-非常に… |
サンプル2 | 誰もあなたにそのゴミを二度と与えないでしょう。あなた自身とあなたのビジネスを支持し、将来的にいくらかのお金や便利さを節約するためだけにそれを購入する前に片付けてください。1/ 2オンスボトルプラスチック食品貯蔵包装+1パック#1636370105702615(P、3ml)$ 7今すぐ購入これらのボトルはどの小売店でも購入できますが、入手方法は次のとおりです… |
繰り返しになりますが、接頭辞は製品レビューのタイトルとして推測できるため、モデルはそのパターンに従ってテキストの生成を開始します。 GPT-2は、このようなあらゆるタイプのテキストを生成できます。
に GoogleColabノートブック 「WriteWithTransformer」と同様に、実験に使用する準備ができています。 ライブデモ 。
はい、GPT-2はウェブ上でトレーニングされているため、2019年までにオンラインで公開された多くの人間の知識を「知っています」。コンテキストの質問にも機能しますが、「」の明示的な形式に従う必要があります。質問:X、回答:」オートコンプリートを試行する前に。しかし、モデルに質問への回答を強制すると、かなりあいまいな回答が出力される可能性があります。知識をテストするために自由形式の質問に答えるように強制しようとすると、次のようになります。
サンプル1 | 質問:進化論を発明したのは誰ですか? 回答: 進化論は1859年にチャールズダーウィンによって最初に提案されました。 |
サンプル2 | 質問:人間は何本の歯を持っていますか? 回答: 人間は21本の歯を持っています。 |
ご覧のとおり、事前にトレーニングされたモデルは、最初の質問に対してかなり詳細な回答を提供しました。第二に、それは最善を尽くしましたが、それはグーグル検索と比較しません。
GPT-2には大きな可能性があることは明らかです。微調整することで、上記の例にはるかに高い精度で使用できます。しかし、私たちが評価している事前に訓練されたGPT-2でさえ、まだそれほど悪くはありません。
GoogleのT5 これまでで最も先進的な自然言語モデルの1つです。これは、一般的なTransformerモデルに関する以前の作業に基づいて構築されています。エンコーダブロックのみを備えたBERTやデコーダブロックのみを備えたGPT-2とは異なり、T5は どちらも 。
40 GBのテキストデータでトレーニングされているGPT-2はすでに印象的でしたが、 T5は7TBのデータセットでトレーニングされました 。非常に多くの反復のためにトレーニングされたにもかかわらず、すべてのテキストを通過することはできませんでした。 T5はできますが テキスト生成 GPT-2と同様に、より興味深いビジネスユースケースに使用します。
簡単なタスクから始めましょう: テキストの要約 。それらのための AI開発会社 ニュース記事を要約するアプリを作成したいので、T5はそのタスクに最適です。たとえば、与える この記事 T5まで、これが作成した3つの異なる要約です。
V1 | 3月10日から始まるdestiny2の次のシーズンは、剣を作り直します。激しい攻撃と防御の両方に電力を供給するために使用される再充電エネルギーがあります。今月はバレンタインデーのイベントである深紅の日も開催されます。 |
V2 | バンジーは、運命2の次のシーズンが劇的に剣を作り直すことを明らかにしました。スタジオは主にシーズンが何を伴うかについて恥ずかしがり屋でした。再考すると、剣がaiの敵の盾を部分的に迂回できるようになります。 |
V3 | Destiny 2の次のシーズンでは、剣を作り直して、敵の盾を迂回させます。シーズンは3月10日から始まります。バレンタインデーのイベントである深紅の日に運命2をプレイできます。 |
ご覧のとおり、記事を要約するというかなり気の利いた仕事をしました。また、各要約は他の要約とは異なります。
事前にトレーニングされたモデルを使用して要約すると、大きな潜在的なアプリケーションがあります。興味深いユースケースの1つは、すべての記事の要約を自動的に生成し、概要だけが必要な読者のためにそれを最初に置くことです。それはさらに取られる可能性があります ユーザーごとに概要をパーソナライズする 。たとえば、一部のユーザーの語彙が少ない場合は、単語の選択肢がそれほど複雑でない要約を提供できます。これは非常に単純な例ですが、このモデルの威力を示しています。
もう1つの興味深いユースケースは、WebサイトのSEOでそのような要約を使用することです。 T5は、非常に高品質のSEOを自動的に生成するようにトレーニングできますが、要約を使用すると、モデルを再トレーニングしなくても、すぐに使用できる場合があります。
T5は次の用途にも使用できます 読解 、たとえば、特定のコンテキストからの質問に答える。このアプリケーションには、後で説明する非常に興味深いユースケースがあります。しかし、いくつかの例から始めましょう。
質問 | 誰が進化論を発明したのですか? |
環境 (( ブリタニカ百科事典 ) | アルゼンチンで絶滅した大型哺乳類から化石の骨が発見され、ガラパゴス諸島で多数のフィンチが観察されたことは、種の起源に対するダーウィンの関心を刺激したことで知られています。 1859年に彼は自然淘汰による種の起源について出版しました。これは進化論を確立する論文であり、最も重要なのは、その進路を決定する上での自然淘汰の役割です。 |
回答 | ダーウィン |
ダーウィンが理論を発明したという明確な言及はありませんが、モデルは正しい結論に到達するためにいくつかのコンテキストとともに既存の知識を使用しました。
非常に小さなコンテキストはどうですか?
質問 | どこに行ったの? |
環境 | 私の誕生日に、私たちはパキスタンの北部地域を訪問することにしました。とても楽しかったです。 |
回答 | パキスタン北部 |
さて、それはかなり簡単でした。哲学的な質問はどうですか?
質問 | 人生の意味とは? |
環境 (( ウィキペディア ) | 私たちが知覚する人生の意味は、存在、社会的つながり、意識、幸福についての哲学的および宗教的な熟考と科学的な探究に由来しています。象徴的な意味、存在論、価値、目的、倫理、善と悪、自由意志、1つまたは複数の神の存在、神の概念、魂、来世など、他の多くの問題も関係しています。科学的貢献は、主に宇宙に関する関連する経験的事実を説明することに焦点を当て、生命の「方法」に関する文脈とパラメーターを探求します。 |
回答 | 存在、社会的つながり、意識、幸福についての哲学的および宗教的考察、および科学的調査 |
この質問への答えは非常に複雑であることはわかっていますが、T5は非常に近いが賢明な答えを考え出そうとしました。称賛!
さらに進んでみましょう。前述のEngadgetの記事をコンテキストとして使用して、いくつか質問してみましょう。
質問 | これは何ですか? |
回答 | Destiny2は劇的に作り直されます |
質問 | このアップデートはいつ期待できますか? |
回答 | 3月10日 |
ご覧のとおり、T5のコンテキスト質問応答は非常に優れています。ビジネスのユースケースの1つは、現在のページに関連するクエリに応答するWebサイト用のコンテキストチャットボットを構築することです。
別の使用例は、ドキュメントから情報を検索することです。たとえば、「会社のラップトップを個人的なプロジェクトに使用することは契約違反ですか?」などの質問をします。法的文書をコンテキストとして使用します。 T5には限界がありますが、このタイプのタスクには非常に適しています。
読者は疑問に思うかもしれません、 タスクごとに特殊なモデルを使用してみませんか? これは良い点です。T5の事前トレーニング済みNLPモデルよりも、精度がはるかに高く、特殊モデルの導入コストがはるかに低くなります。しかし、T5の美しさは、それが「すべてを支配する1つのモデル」であるということです。つまり、事前にトレーニングされた1つのモデルを使用できます。 ほとんどすべてのNLPタスク 。さらに、再トレーニングや微調整を行わずに、これらのモデルをそのまま使用したいと考えています。したがって、さまざまな記事を要約するアプリや、状況に応じた質問応答を行うアプリを作成する開発者にとって、同じT5モデルで両方を実行できます。
この記事では、事前にトレーニングされたモデルと、さまざまなビジネスユースケースでそれらをすぐに使用する方法について説明しました。古典的なソートアルゴリズムがソートの問題にほとんどどこでも使用されているように、これらの事前トレーニング済みモデルは標準アルゴリズムとして使用されます。私たちが調査したのはただのことだったのは明らかです 表面を引っ掻く NLPアプリケーションの数であり、これらのモデルで実行できることは他にもたくさんあります。
次のような事前トレーニング済みの深層学習モデル StyleGAN-2 そして DeepLabv3 同様の方法で電力を供給できます コンピュータビジョンのアプリケーション 。この記事を楽しんでいただければ幸いです。以下のコメントをお待ちしております。
事前トレーニングは、データサイエンティストが非常に大きなデータセットでモデルアーキテクチャをトレーニングする手法です。これにより、モデルに事前の知識がもたらされ、新しいタスクのためにモデルを微調整するのに役立ちます。例として、ImageNetでResnet-50をトレーニングします。
トレーニング済みモデルは、データセットでトレーニングされた特定のモデルアーキテクチャです。
各深層学習モデルは、さまざまな方法で接続された一連の基本レイヤーを使用して構築されます。これらのレイヤーを接続すると、特定のモデルアーキテクチャが作成されます。アーキテクチャの例としては、ResNet、GPT-2、およびStyleGANがあります。
深層学習レイヤーは、前のレイヤーの出力を次のレイヤーの入力に変換する数学演算です。通常、トレーニング中に学習されるこれらの数学演算に関連する数値パラメータがあります。
深層学習モデルの重みは、各レイヤーに関連付けられたそのモデルのすべてのパラメーターの値のリストです。