Apple、MLを製品に組み込むことでWWDC基調講演での「AI」の誇大宣伝を回避 | 深センボールドベンチャーソリューションズ株式会社

arstechnica.com で非 AMP バージョンを表示する

月曜日のWWDC 2023基調講演イベントで発表されたApple Silicon Mac ProやApple Vision Proなどの印象的な新製品のさなか、Appleのプレゼンターは一度も「AI」という言葉に触れなかったが、これはMicrosoftやGoogleといった競合他社がAIに重点を置いていることを考えると、注目すべき省略である。現時点では生成AI。それでも、AI は別の名前であっただけで、Apple のプレゼンテーションの一部でした。

昨今、「AI」という用語は非常に曖昧で、驚くべき進歩と極端な誇大宣伝に囲まれていますが、Apple はその連想を避け、代わりに「機械学習」や「ML」などの用語に焦点を当てました。たとえば、iOS 17 のデモ中に、ソフトウェアエンジニアリング担当上級副社長の Craig Federighi 氏は、自動修正とディクテーションの改善について次のように話しました。

オートコレクトはオンデバイスの機械学習を利用しており、私たちは長年にわたってこれらのモデルを進化させ続けてきました。キーボードは、最先端の単語予測であるトランスフォーマー言語モデルを活用し、オートコレクトがこれまで以上に正確になっています。そして Apple Silicon の力により、iPhone はキーをタップするたびにこのモデルを実行できます。

注目すべきは、Apple が基調講演で AI 用語「トランスフォーマー」について言及したことです。同社は特に「トランスフォーマー言語モデル」について話しました。これは、同社の AI モデルが、DALL-E 画像ジェネレーターや ChatGPT チャットボットなど、最近の多くの生成 AI イノベーションを推進しているトランスフォーマーアーキテクチャを使用していることを意味します。

トランスフォーマーモデル (2017 年に初めて導入された概念) は、自然言語処理 (NLP) で使用されるニューラルネットワークアーキテクチャの一種で、セルフアテンションメカニズムを採用し、シーケンス内のさまざまな単語や要素に優先順位を付けることができます。入力を並行して処理する機能により、効率が大幅に向上し、翻訳、要約、質問応答などの NLP タスクのブレークスルーが強化されました。

どうやら、iOS 17 の Apple の新しいトランスフォーマーモデルでは、スペースバーを押すと単語または文全体を終了できる文レベルの自動修正が可能になります。あなたの文章スタイルからも学習し、それが提案の指針となります。

Apple にとって、このデバイス上の AI 処理はすべて、機械学習アプリケーションを高速化するように設計されたニューラルエンジンと呼ばれる Apple Silicon チップ (および 2017 年の A11 以降の初期の Apple チップ) の特別な部分のおかげで、かなり簡単です。 Appleはまた、ディクテーションには「ニューラルエンジンを利用してディクテーションの精度をさらに高める、トランスフォーマーベースの新しい音声認識モデルを採用した」とも述べた。

基調講演中、Apple は他にも何度か「機械学習」について言及しました。iPad の新しいロック画面機能について説明したとき (「Live Photo を選択すると、高度な機械学習モデルを使用して追加のフレームを合成します」)。 iPadOS PDF 機能 (「新しい機械学習モデルのおかげで、iPadOS は PDF 内のフィールドを識別できるため、オートフィルを使用して名前、住所、連絡先からの電子メールなどの情報を PDF にすばやく入力できます。」); AirPods アダプティブオーディオ機能 (「パーソナライズされた音量では、機械学習を使用して、時間の経過とともにお客様のリスニングの好みを理解します」)。そして、Smart Stack と呼ばれる Apple Watch ウィジェット機能 (「Smart Stack は機械学習を使用して、必要なときに関連情報を表示します」)。

Apple はまた、iPhone 上でロックおよび暗号化された個人的なテキストと画像のジャーナリング (インタラクティブな日記のようなもの) を可能にする Journal という新しいアプリもデビューさせました。 AppleはAIが役割を果たしていると述べたが、「AI」という用語は使用しなかった。

「オンデバイスの機械学習を使用すると、iPhone はあなたの執筆にインスピレーションを与える瞬間のパーソナライズされた提案を作成できます」と Apple は述べています。「提案は、写真、場所、音楽、ワークアウトなどの iPhone 上の情報からインテリジェントに厳選されます。また、提案を有効にするときに何を含めるか、どれをジャーナルに保存するかを制御できます。」

最後に、新しい Apple Vision Pro のデモ中に、同社は、ゴーグルの前面に表示されるユーザーの目の動く画像が、顔をスキャンして作成された特別な 3D アバターから来ていることを明らかにしました。それはご想像のとおり、機械学習によるものです。

Appleは「最先端の機械学習技術を使用して、斬新なソリューションを開発した」と述べた。「Vision Pro のフロントセンサーを使用した素早い登録プロセスの後、システムは高度なエンコーダーデコーダーニューラルネットワークを使用してデジタルペルソナを作成します。」

エンコーダデコーダニューラルネットワークは、まず入力を「潜在空間表現」と呼ばれる圧縮数値形式に圧縮し (エンコーダ)、次にその表現からデータを再構築する (デコーダ) ニューラルネットワークの一種です。私たちは推測していますが、エンコーダー部分は、スキャンプロセス中にキャプチャされた顔データを分析し、より管理しやすい低次元の潜在表現に圧縮する可能性があります。次に、デコーダ部分はその凝縮された情報を使用して顔の 3D モデルを生成する可能性があります。

WWDCの基調講演中、Appleはこれまでで最も強力なApple SiliconチップであるM2 Ultraを発表した。このチップは最大24のCPUコア、76のGPUコア、および1秒あたり31.6兆回の演算を実現する32コアのニューラルエンジンを搭載しているとAppleは述べているM1 Ultra よりも 40% 高速なパフォーマンスを表します。

興味深いことに、Apple は、この能力は「大型変圧器モデル」のトレーニングに役立つかもしれないと直接述べました。これは、私たちの知る限り、Apple の基調講演で AI について最も顕著に言及されたものです (ついでだけではありますが)。

また、M2 Ultra は、M1 Ultra より 50% 多い 192GB という膨大なユニファイドメモリをサポートできるため、他のチップではできないことを実行できます。たとえば、単一のシステムで、最も強力な個別 GPU がメモリ不足で処理することさえできない大規模なトランスフォーマーモデルなど、大規模な ML ワークロードをトレーニングできます。

この開発には一部の AI 専門家が興奮しています。頻繁に AI 評論家を務めるペリー E. メッツガー氏は Twitter で、「偶然か意図的かにかかわらず、Apple Silicon ユニファイドメモリアーキテクチャにより、ハイエンド Mac は大規模な AI モデルの実行や AI 研究を行うための本当に素晴らしいマシンになったことを意味します。実際にはそれほど多くはありません」と書いています。この価格帯で 192GB の GPU アクセス可能な RAM を提供する他のシステムはあります。」

ここで、RAM が大きいということは、より大きく、表面上はより高性能な AI モデルをメモリに収めることができることを意味します。このシステムは、新しい Mac Studio (1,999 ドルから) と新しい Mac Pro (6,999 ドルから) であり、AI トレーニングを多くの新しい人々の手に届くようにする可能性があり、デスクトップおよびタワーサイズのマシンのフォームファクターで行うことができます。

これらの新しい M2 Ultra 搭載マシンのパフォーマンスが、H100 などの AI 調整された Nvidia GPU と比較してどのように比較されるかは、厳密な評価によってのみわかります。今のところ、Apple は生成 AI トレーニングハードウェアのリングに公然と帽子を投げたようです。

記事のコメントを見る