Avec Phi-3-mini, Microsoft mise sur un LLM compact et performant capable de tourner sur iPhone

A peine quatre mois après avoir dévoilé Phi-2, Microsoft semble avoir accéléré le rythme en matière d'intelligence artificielle générative. "Phi-3-mini" débarque avec ses 3,8 milliards de paramètres, prêt à rivaliser avec les modèles de 7 milliards de paramètres que compte l'écosystème. Au-delà de ses performances pour le moins intéressantes, le LLM est suffisamment petit pour être déployé sur un téléphone.

Célia Séramour

Publié le 23 avril 2024 à 15h32

Phi-3-mini Microsoft Research LLM IA — Le modèle de langage phi-3-mini quantifié sur 4 bits fonctionnant en mode natif sur un iPhone équipé d'une puce A16 Bionic, générant plus de 12 jetons par seconde.

A l'occasion de Microsoft Ignite 2023, Satya Nadella a dévoilé Phi-2, un grand modèle de langage de 2,7 milliards de paramètres avec des capacités intéressantes en matière de raisonnement et de compréhension du langage, se positionnant parmi les meilleurs modèles de langage de base comportant moins de 13 milliards de paramètres.

Développé par l’équipe Machine Learning Foundations chez Microsoft Research, Phi-2 correspond ou surpasse des modèles jusqu'à 25 fois plus grands, grâce à des ajustements réalisés en matière de mise à l'échelle des modèles et de conservation des données d'entraînement, a précisé Satya Nadella. Aujourd'hui, le géant de Redmond a dévoilé une troisième itération de son modèle Phi, appelée "Phi-3-mini".

Un LLM compact qui fait rougir Google, Meta et Mistral AI

"Nous présentons Phi-3-mini, un grand modèle de langage de 3,8 milliards de paramètres entraîné sur 3,3 mille milliards de tokens, dont les performances globales, mesurées par des benchmarks académiques et des tests internes, rivalisent avec celles de modèles tels que Mixtral 8x7B et GPT-3.5",affirment les chercheurs de Microsoft Research dans leur publication scientifique. Dans le détail, Phi-3-mini obtient un score de 68,8% sur le test MMLU contre 61,7% pour Mistral 7B, 63,6% pour Gemma 7B, 66% pour Llama-3-Instruct et 68,4% pour Mixtral 8x7B.

Et si GPT-3.5 reste au-dessus du lot sur ce test – avec un score de 71,4% - le modèle phare d'OpenAI se fait distancer sur le test GSM-8K obtenant un score de 78,1% contre 82,5% pour le modèle compact de Microsoft. Les modèles de Google, Meta et Mistral AI sont également à la traîne en matière de performances sur ce point de comparaison. Le test HumanEval creuse également l'écart entre tous ces modèles. Phi-3-mini obtient 58,5% tandis que GPT-3.5 obtient 62,2%. Les autres LLM obtiennent des scores compris entre 28% et 38,4%, bien loin du compte.

Les modèles Phi-3 entraînés sur des GPU Nvidia

Nvidia nous précise dans un mail que "les modèles Phi-3 ont été entraînés pendant sept jours sur 512 GPU Nvidia H100 Tensor Core". Le géant des GPU précise par ailleurs que "les développeurs peuvent essayer Phi-3 Mini sur sa plateforme AI où le modèle sera packagé en tant que NIM, un microservice avec une API standard qui peut être déployé n'importe où".

Nvidia a fait part d'annonces similaires concernant les familles de modèles Gemma de Google et Llama 3 de Meta.

Phi-3-mini peut être déployé sur l'iPhone 14

Le LLM développé par Microsoft se démarque sur un autre point : sa capacité à être déployé sur un téléphone en raison de sa taille suffisamment petite. Pour y parvenir, les chercheurs expliquent que "l'innovation réside entièrement dans notre ensemble de données pour l'entraînement, une version agrandie de celle utilisée pour Phi-2, composée de données web fortement filtrées et de données synthétiques".

Grâce à sa petite taille, les chercheurs affirment que Phi-3-mini peut être quantifié à 4 bits de sorte qu'il n'occupe qu'environ 1,8 Go de mémoire. "Nous avons testé le modèle quantifié en déployant phi-3-mini sur l'iPhone 14 équipé d'une puce A16 Bionic fonctionnant en mode natif sur l'appareil et entièrement hors ligne, atteignant plus de 12 jetons par seconde."

Repousser les limites des modèles de langage "compacts"

Toutefois, bien que Phi-3-mini atteigne un niveau de compréhension du langage et de capacité de raisonnement similaire à celui de modèles beaucoup plus grands, il est toujours fondamentalement limité par sa taille pour certaines tâches. Le modèle n'a tout simplement pas la capacité de stocker trop de "connaissances factuelles", comme l'affirment les chercheurs de Microsoft, ce qui se traduit par exemple par une faible performance sur certains benchmarks tels que TriviaQA.

Cette faiblesse peut toutefois être exploitée à bon escient en ajoutant un moteur de recherche. Les équipes de Microsoft Research se sont penchées sur le sujet et ont montré un exemple utilisant l'interface de chat par défaut HuggingFace avec Phi-3-mini. A l'avenir, les équipes prévoient de se pencher sur un autre problème, les capacités multilingues pour les petits modèles de langue.

Deux autres versions de 7B et 14B de paramètres publiées

En parallèle, les équipes ont publié deux autres modèles comptant respectivement 7 et 14 milliards de paramètres baptisés "Phi-3-small" et "Phi-3-medium". Tous deux sont significativement plus performants que Phi-3-mini (par exemple, ils obtiennent les scores respectifs de 75% et 78% sur MMLU contre 69% pour phi-3-mini, et 8,7 et 8,9 sur MT-bench contre 8,38 pour Phi-3-mini). Le modèle Phi-3-small compte une taille de vocabulaire de 100 352 et une fenêtre contextuelle par défaut de 8K de jetons, soit le double du modèle Phi-3-mini.

Dans leur publication scientifique, les chercheurs de Microsoft Research précisent que, dans le but d'en faire "profiter au mieux à la communauté open source", Phi-3-mini est construit sur une structure de blocs similaire à celle de Llama-2 et utilise le même tokenizer avec une taille de vocabulaire de 320 641. Cela signifie que tous les packages développés pour la famille de modèles Llama-2 peuvent être directement adaptés à Phi-3-mini.

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.