Apple、既存のモデルより20.4%高性能な次世代のマルチモーダルAI、「Ferret」を公開

2023.12.28 2024.1.1 Mac

コピーしました

OpenAIとMicrosoftやGoogle、Metaなどは現在、AI関連でしのぎを削っています。そんな中、米AppleはGitHub上に新しいMultimodal Large Language Model（MLLM）の「Ferret」（フェレット）を公開しました。

既存のモデルよりも20.4%高性能で、画像内の任意の領域を指定して解釈し、それに関連する言語情報と結びつけることができる特徴を持っています。

Ferretモデルの機能と特徴

Ferretは点、ボックス、スケッチや多角形といった自由形状を含む、画像内の複数の領域を同時に認識し表現することができます。これにより、AIが画像の特定部分を検出したり認識することが可能です。

画像からの情報を取り込む際に、空間的文脈を理解するために、Ferretはサンプリングとプーリングのプロセスを通じて、領域特有の特徴を抽出します。

画像から特徴点をサンプリングし、KNN（k近傍法）を用いて隣接する点を組み合わせ、「Fusion Neighbor」で融合します。「Pooling」を通じて、サンプルされた点を出力としています。これらのプロセスは、画像内の領域の特徴を集約し、空間的な文脈を考慮した情報を生成するために行われます。

GRITデータセットは、Ferretのトレーニングに用いられる約110万の大規模かつ階層的なデータセットであり、Ferret-Benchは参照/グラウンディング、セマンティクス、知識、推論を組み合わせた評価基準を提供します。

なお、Ferretは80GB メモリを備えた 8 つのNVIDIA A100 GPU でトレーニングしたとAppleは紹介しています。

Ferretは、研究用途のみで利用でき、Ferretのデータセット、コード、および学習済みモデルは、研究目的に限定された非商用ライセンスの下で提供されています。

Ferretに関連するすべてのコンポーネントは、LLaMA、Vicuna、およびGPT-4のライセンス合意に従っています。これらは、それぞれの技術に関連する特定の制約や条件を持っており、Ferretを利用する場合にはそれぞれのライセンスを確認する必要があります。

なお、データセットはCC BY-NC 4.0ライセンスの下で提供されており、これには以下のような制約が含まれています。

また、Ferretモデルをトレーニングする際に使用されるプロジェクターやベースモデル（Vicunaなど）にも、特定の使用条件や制約が適用されます。開発者はこれらの条件を満たすために、モデルのウェイトを適切に管理し、必要なライセンス情報を提供する責任を負います。

Appleは、Ferretの学習済みモデルの重み差分に関する権利をCC-BY-NCライセンスの下でライセンスしており、LLaMaやその他の第三者ソフトウェアに関しては、それぞれ独自の条件に基づいています。

Ferretを使用する際の基本的なガイドラインは以下の通りです。