OpenAIとMicrosoftやGoogle、Metaなどは現在、AI関連でしのぎを削っています。そんな中、米AppleはGitHub上に新しいMultimodal Large Language Model(MLLM)の「Ferret」(フェレット)を公開しました。
既存のモデルよりも20.4%高性能で、画像内の任意の領域を指定して解釈し、それに関連する言語情報と結びつけることができる特徴を持っています。
Ferretモデルの機能と特徴
ハイブリッド領域表現
Ferretは点、ボックス、スケッチや多角形といった自由形状を含む、画像内の複数の領域を同時に認識し表現することができます。これにより、AIが画像の特定部分を検出したり認識することが可能です。
空間認識型ビジュアルサンプラー
画像からの情報を取り込む際に、空間的文脈を理解するために、Ferretはサンプリングとプーリングのプロセスを通じて、領域特有の特徴を抽出します。
画像から特徴点をサンプリングし、KNN(k近傍法)を用いて隣接する点を組み合わせ、「Fusion Neighbor」で融合します。「Pooling」を通じて、サンプルされた点を出力としています。これらのプロセスは、画像内の領域の特徴を集約し、空間的な文脈を考慮した情報を生成するために行われます。
統合的なトレーニングと評価ベンチマーク
GRITデータセットは、Ferretのトレーニングに用いられる約110万の大規模かつ階層的なデータセットであり、Ferret-Benchは参照/グラウンディング、セマンティクス、知識、推論を組み合わせた評価基準を提供します。
なお、Ferretは80GB メモリを備えた 8 つのNVIDIA A100 GPU でトレーニングしたとAppleは紹介しています。
Ferretのライセンス
Ferretは、研究用途のみで利用でき、Ferretのデータセット、コード、および学習済みモデルは、研究目的に限定された非商用ライセンスの下で提供されています。
Ferretに関連するすべてのコンポーネントは、LLaMA、Vicuna、およびGPT-4のライセンス合意に従っています。これらは、それぞれの技術に関連する特定の制約や条件を持っており、Ferretを利用する場合にはそれぞれのライセンスを確認する必要があります。
なお、データセットはCC BY-NC 4.0ライセンスの下で提供されており、これには以下のような制約が含まれています。
- 非商用利用のみが許可されており、商用目的での使用は禁止されています。
- 研究目的であれば、データセットの改変、派生作品の作成、または新しい研究での使用が許可されていますが、作成者のクレジットを表示する必要があります。
また、Ferretモデルをトレーニングする際に使用されるプロジェクターやベースモデル(Vicunaなど)にも、特定の使用条件や制約が適用されます。開発者はこれらの条件を満たすために、モデルのウェイトを適切に管理し、必要なライセンス情報を提供する責任を負います。
Appleは、Ferretの学習済みモデルの重み差分に関する権利をCC-BY-NCライセンスの下でライセンスしており、LLaMaやその他の第三者ソフトウェアに関しては、それぞれ独自の条件に基づいています。
Ferretを使用する際の基本的なガイドラインは以下の通りです。
- 商用目的での使用は禁止されています。
- 研究目的であれば、モデルのコードとチェックポイントの使用が許可されています。
- 公開された資料、データセット、および学習済みモデルは、ライセンス条件に従い適切に表示する必要があります。