AIキャノン | 深センボールドベンチャーソリューションズ株式会社

人工知能の研究は指数関数的に増加しています。 AI の専門家にとって、新しく公開されるすべての情報に追いつくのは困難であり、初心者にとってはどこから始めればよいのかを知るのはさらに困難です。

そこでこの投稿では、最新の AI についてより賢くなるために利用したリソースの厳選されたリストを共有します。これらの論文、ブログ投稿、コース、ガイドが過去数年間にわたってこの分野に多大な影響を与えてきたため、私たちはこれを「AI Canon」と呼んでいます。

まず、現在の AI の波を加速させているトランスフォーマーと潜在的な拡散モデルについての穏やかな紹介から始めます。次に、技術的な学習リソースについて詳しく説明します。大規模言語モデル (LLM) を使用して構築するための実践的なガイド。 AI市場の分析。最後に、世界にトランスフォーマーモデルを紹介し、生成 AI の時代の到来を告げた Google の 2017 年の論文「Attending is All You Need」から始まる、画期的な研究結果の参考リストを示します。

これらの記事は専門的な知識を必要とせず、最新の AI の波の最も重要な部分について迅速に理解するのに役立ちます。

これらのリソースは、深層学習の基礎から AI 専門家による大学レベルのコースに至るまで、機械学習と AI の基本的な考え方の基礎的な理解を提供します。

LLM がどのように機能するかを説明しようとするリソースが無数にあり、その中には他のリソースより優れたものもあります。ここでは、幅広い読者/視聴者を対象とした、私たちのお気に入りのいくつかを紹介します。

LLM を中核とした新しいアプリケーションスタックが登場しています。このトピックに関して利用できる正式な教育はまだあまりありませんが、私たちは見つけた最も有用なリソースのいくつかを抜粋しました。

私たちは皆、生成 AI が生み出すものに驚嘆していますが、それが何を意味するのかについては依然として多くの疑問が残っています。どの製品と企業が生き残り、繁栄するでしょうか? アーティストはどうなるのでしょうか？企業はそれをどのように活用すべきでしょうか? それは文字通り仕事や社会全体にどのような影響を与えるのでしょうか？ここでは、これらの質問に答えるためのいくつかの試みを示します。

今日私たちが目にする素晴らしい AI 製品のほとんどは、大企業や一流大学の専門家によって実施された、同様に驚くべき研究の結果です。最近では、自動化されたエージェントを作成したり、より小さなハードウェアフットプリントにモデルを移植したりするなど、人気のあるプロジェクトを新しい方向に導く個人やオープンソースコミュニティによる素晴らしい取り組みも見られました。

ここでは、生成 AI について深く掘り下げたい人のために、これらの論文やプロジェクトの多くを集めました。 (研究論文やプロジェクトについては、利用可能な場合は、より高いレベルで物事を説明する傾向にある付随するブログ投稿または Web サイトへのリンクも含めています。また、基礎的な研究を長期にわたって追跡できるように、初版の出版年も含めています。。）

新モデル

モデルの改善 (例: 微調整、検索、注意)

コード生成

ビデオ生成

人間の生物学と医療データ

オーディオの生成

多次元画像生成

この記事に貢献してくれた Jack Soslow、Jay Rughani、Marco Mascorro、Martin Casado、Rajko Radovanovic、Vijay Pande と、最新の AI について常に有益なディスカッションを提供してくれた a16z チーム全体に特別に感謝します。そして、同社で一連の長期にわたる規範を構築してくれたSonal Chokshiと暗号通貨チームに感謝します。

* * *

ここで表明された見解は、引用された AH Capital Management, LLC (「a16z」) の個人の見解であり、a16z またはその関連会社の見解ではありません。ここに含まれる特定の情報は、a16z が管理するファンドのポートフォリオ会社などの第三者情報源から入手したものです。信頼できると思われる情報源から取得したものではありますが、a16z はそのような情報を独自に検証しておらず、情報の永続的な正確性や特定の状況に対する情報の適切性について表明するものではありません。さらに、このコンテンツにはサードパーティの広告が含まれる場合があります。 a16z はそのような広告を審査しておらず、そこに含まれるいかなる広告コンテンツも推奨しません。

このコンテンツは情報提供のみを目的として提供されており、法律、ビジネス、投資、税金に関するアドバイスとして信頼されるべきではありません。これらの問題については、自分のアドバイザーに相談する必要があります。有価証券またはデジタル資産への言及は説明のみを目的としており、投資の推奨や投資顧問サービスの提供の提供を構成するものではありません。さらに、このコンテンツは投資家または投資家候補者に向けられたものではなく、それらによる使用を目的としたものではなく、a16z が管理するファンドへの投資を決定する際にはいかなる状況においても信頼してはなりません。 (a16z ファンドへの投資募集は、そのようなファンドの私募覚書、サブスクリプション契約、およびその他の関連文書によってのみ行われ、そのすべてを読む必要があります。) 言及、参照、または言及されている投資またはポートフォリオ企業はすべて、記載されているものは、a16z が管理する車両へのすべての投資を代表するものではなく、その投資が利益を生むか、将来行われる他の投資が同様の特性や結果をもたらすかについては保証できません。 Andreessen Horowitz が管理するファンドによって行われた投資のリスト (発行者が a16z に公開の許可を与えていない投資および上場デジタル資産への未発表の投資を除く) は、https://a16z.com/investments で入手できます。 /。

ここで提供されるチャートやグラフは情報提供のみを目的としており、投資決定を行う際に依存すべきではありません。過去の実績は将来の結果を示すものではありません。内容は、示された日付時点でのみ述べられています。これらの資料に記載されている予測、見積もり、予測、目標、見通し、および/または意見は予告なく変更される可能性があり、他の人が表明した意見と異なる、または反対となる場合があります。その他の重要な情報については、https://a16z.com/disclosures をご覧ください。

目次ソフトウェア 2.0 GPT の状態 ChatGPT は何をしているのですか...そしてなぜ機能するのですか? トランスフォーマーの説明安定拡散の仕組みディープラーニングの概要: 中心概念プログラマーのための実践的なディープラーニング Word2vec の説明はい、backprop を理解する必要があります Stanford CS229 Stanford CS224N 図解されたトランスフォーマー注釈付きのトランスフォーマー GPT を構築しましょう: スクラッチからコードで詳しく説明図示された安定拡散 : RLHF: ヒューマンフィードバックからの強化学習ヒューマンフィードバックからの強化学習スタンフォード CS25 スタンフォード CS324 予測学習、NIPS 2016 テスラの完全自動運転用 AI スケーリング仮説チンチラの野生的な意味大規模言語モデルの調査一般人工知能の火花: GPT-4 の初期実験 AI 革命: Auto-GPT が自動化と創造性の新時代をどのように解き放つか Waluigi 効果 GPT3、LangChain、Python を使用して GitHub サポートボットを構築する実稼働用の LLM アプリケーションを構築するプロンプトエンジニアリングガイドプロンプトインジェクション: とは起こり得る最悪の事態は？ OpenAI クックブック松ぼっくりラーニングセンター LangChain ドキュメント LLM ブートキャンプハグフェイストランスフォーマーチャットボットアリーナ Open LLM リーダーボード生成 AI プラットフォームの所有者は誰ですか? AI コンピューティングの高コストを乗り越えるアートは死んだわけではなく、機械が生成しただけですゲームにおける生成 AI 革命 B2B 生成 AI アプリにとって、少ないほうが良いでしょうか? 金融サービスは、あなたが思っているよりも早く生成型 AI を導入するでしょう生成型 AI: 次の消費者プラットフォームヘルスケアに真の変化をもたらすには、AI も私たちと同じように学習する必要があります新しい産業革命: バイオ x AI 基盤モデルの機会とリスクについてAI レポートの現状 GPT とは GPT: 大規模言語モデルが労働市場に与える影響の可能性を早期に考察深層医療: 人工知能が医療を人間に戻す方法大規模言語モデル必要なのは注意だけです BERT: 深層双方向トランスフォーマーの事前トレーニング言語理解生成的な事前トレーニングによる言語理解の向上言語モデルは少数回学習です人間のフィードバックによる指示に従う言語モデルのトレーニング LaMDA: 対話アプリケーション用の言語モデル PaLM: パスウェイによる言語モデリングのスケーリング OPT: オープンな事前トレーニング済み Transformer 言語モデルのトレーニング計算に最適な大規模言語モデル GPT-4 技術レポート LLaMA: オープンで効率的な基礎言語モデル Alpaca: 強力で複製可能な命令追従モデルモデルの改良 (微調整、検索、注意など) 人間の好みからの深層強化学習検索拡張知識集約型の NLP タスクの生成数兆のトークンから取得することによる言語モデルの改善 LoRA: 大規模な言語モデルの低ランク適応 Constructional AI (2022) FlashAttend: IO 認識による高速でメモリ効率の高い正確な注意空腹のカバ: 言語へ状態空間モデルを使用したモデリング画像生成モデル自然言語監視からの転送可能なビジュアルモデルの学習ゼロショットテキストから画像への生成潜在拡散モデルによる高解像度画像合成深い言語理解によるフォトリアリスティックなテキストから画像への拡散モデル DreamBooth: 微調整主題主導型生成のためのテキストから画像への拡散モデルテキストから画像への拡散モデルへの条件付き制御の追加エージェント自律型マシンインテリジェンスへの道 ReAct: 言語モデルにおける推論と行動の相乗効果生成エージェント: 人間の行動のインタラクティブなシミュラクル反射:動的メモリと自己反映を備えた自律エージェント Toolformer: 言語モデルがツールの使い方を学習できる Auto-GPT: 自律的な GPT-4 実験 BabyAGI その他のデータモダリティコード生成コードでトレーニングされた大規模な言語モデルの評価 AlphaCode CodeGen による競争レベルのコード生成: マルチターンプログラム合成を備えたコード用のオープンな大規模言語モデルビデオ生成 Make-A-Video: テキストビデオデータを使用しないテキストからビデオへの生成 Imagen Video: 拡散モデルを使用した高解像度ビデオ生成人間の生物学と医療データの戦略事前トレーニンググラフニューラルネットワークディープラーニングのポテンシャルを使用したタンパク質構造予測の改善臨床知識をエンコードする大規模言語モデルオーディオ生成 Jukebox: 音楽の生成モデル AudioLM: オーディオ生成への言語モデリングアプローチ MusicLM: テキストから nusic を生成多次元画像生成NeRF: ビュー合成のためのニューラル放射フィールドとしてシーンを表現 DreamFusion: 2D 拡散を使用した Text-to-3D