L'application Huggingsnap sert le meilleur outil d'IA d'Apple, avec une touche pratique

L'application Huggingsnap sert le meilleur outil d'IA d'Apple, avec une touche pratique

La plate-forme d'apprentissage automatique, Hugging Face, a publié une application iOS qui donnera un sens au monde qui vous entoure, comme le montre la caméra de votre iPhone. Il suffit de le pointer sur une scène, ou de cliquer sur une image, et elle déploiera une IA pour la décrire, identifier les objets, effectuer une traduction ou tirer des détails textuels.

Nommé Huggingsnap, l'application adopte une approche multimodèle pour comprendre la scène qui vous entoure en tant qu'entrée, et elle est maintenant disponible gratuitement sur l'App Store. Il est alimenté par Smolvlm2, un modèle d'IA ouvert qui peut gérer le texte, l'image et la vidéo sous forme de formats d'entrée.

L'objectif primordial de l'application est de permettre aux gens de se renseigner sur les objets et les paysages qui les entourent, y compris la reconnaissance des plantes et des animaux. L'idée n'est pas trop différente de l'intelligence visuelle sur les iPhones, mais Huggingsnap a une légèreté cruciale sur son rival Apple.

Il ne nécessite pas d'Internet pour fonctionner

Tout ce dont il a besoin est un iPhone exécutant iOS 18 et vous êtes prêt à partir. L'interface utilisateur de Huggingsnap n'est pas trop différente de ce que vous obtenez avec l'intelligence visuelle. Mais il y a une différence fondamentale ici.

Apple s'appuie sur Chatgpt pour que l'intelligence visuelle fonctionne. En effet, Siri n'est actuellement pas capable d'agir comme un outil d'IA génératif, tel que Chatgpt ou Google's Gemini, qui ont tous deux leur propre banque de connaissances. Au lieu de cela, il décharge toutes ces demandes et requêtes d'utilisateur pour Chatgpt.

Cela nécessite une connexion Internet car Chatgpt ne peut pas fonctionner en mode hors ligne. Huggingsnap, en revanche, fonctionne très bien. De plus, une approche hors ligne signifie qu'aucune donnée utilisateur ne quitte votre téléphone, ce qui est toujours un changement bienvenu d'un point de vue de la confidentialité.

Que pouvez-vous faire avec Huggingsnap?

Huggingsnap est propulsé par le modèle Smolvlm2 développé en étreignant le visage. Alors, qu'est-ce que ce modèle peut exécuter le spectacle derrière cette application? Eh bien, beaucoup. En plus de répondre à des questions en fonction de ce qu'il voit via l'appareil photo d'un iPhone, il peut également traiter les images choisies dans la galerie de votre téléphone.

Par exemple, montrez-le une image de tout monument historique et demandez-lui de vous donner des suggestions de voyage. Il peut comprendre les choses apparaissant sur un graphique, ou donner un sens à l'image d'une facture d'électricité et à des requêtes de réponse en fonction des détails qu'il a pris dans le document.

Il a une architecture légère et est particulièrement bien adapté pour les applications sur les appareils de l'IA. Sur les références, il fonctionne mieux que le modèle de paligemma ouvert (3b) concurrent de Google et frotte les épaules avec le modèle AI Qwen rival d'Alibaba avec des capacités de vision.

Exécution de l'application Huggingsnap sur iPhone.

Le plus grand avantage est qu'il nécessite moins de ressources système pour s'exécuter, ce qui est particulièrement important dans le contexte des smartphones. Fait intéressant, le lecteur VLC Media populaire utilise également le même modèle SMOLVLM2 pour fournir des descriptions de vidéos, permettant aux utilisateurs de rechercher une vidéo en utilisant des invites en langage naturel.

Il peut également extraire intelligemment les moments de mise en évidence les plus importants d'une vidéo. «Conçu pour l'efficacité, Smolvlm peut répondre aux questions sur les images, décrire le contenu visuel, créer des histoires fondées sur plusieurs images ou fonctionner comme un modèle de langage pur sans entrées visuelles», explique le référentiel GitHub de l'application.

Rate this post
Total
0
Shares
Previous Post
L'éditeur d'image open source GIMP fait son retour après sept ans

L'éditeur d'image open source GIMP fait son retour après sept ans

Next Post
Le nouveau galet est un non-sens nostalgique dont nous n'avons pas besoin

Le nouveau galet est un non-sens nostalgique dont nous n'avons pas besoin

Related Posts