Your browser doesn't support the HTML5 CANVAS tag.

Visual Portfolio, Posts & Image Gallery for WordPress

DiffBIR: Restauration d’images

Un système qui exploite des modèles de diffusion texte-image préalablement formés pour la restauration d'images.*ColabPro https://colab.research.google.com/github/camenduru/DiffBIR-colab/blob/main/DiffBIR_colab.ipynb *Github https://github.com/XPixelGroup/DiffBIR *Paper https://arxiv.org/abs/2308.15070

VideoComposer

Imagen2Vídeo et Vídeo2Vídeo. *Web https://videocomposer.github.io/ *Demo https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary *ColabPro https://colab.research.google.com/github/camenduru/I2VGen-XL-colab/blob/main/I2VGen_XL_colab.ipynb *Github https://github.com/damo-vilab/videocomposer *Papper https://arxiv.org/abs/2306.02018

SeamlessM4T

Un traducteur universel. Il est conçu pour fournir une traduction de haute qualité, permettant à des personnes issues de communautés linguistiques différentes de communiquer sans effort par la voix et le texte. *Web https://github.com/facebookresearch/seamless_communication *Colab https://colab.research.google.com/github/camenduru/seamless-m4t-colab/blob/main/seamless_m4t_colab.ipynb *Demo https://seamless.metademolab.com/ *HuggingFace https://huggingface.co/spaces/facebook/seamless_m4t *Github https://github.com/facebookresearch/seamless_communication *Papper https://dl.fbaipublicfiles.com/seamless/seamless_m4t_paper.pdf

Magenta: Un outil utilisant l’apprentissage automatique pour aider dans le processus créatif de l’art et de la musique.

Magenta est un projet open source qui explore le rôle de l'apprentissage automatique comme outil dans le processus créatif. Il propose une collection d'outils de créativité musicale basés sur des modèles open source, utilisant des techniques d'apprentissage automatique de pointe pour la génération de musique.*Web https://magenta.tensorflow.org/ *Demo https://magenta.tensorflow.org/demos *Ableton https://magenta.tensorflow.org/studio *JS https://github.com/magenta/magenta-js *Github https://github.com/magenta *Manual https://magenta.tensorflow.org/studio#:~:text=Studio%20v1.0.-,TABLE%20OF%20CONTENTS,-Overview

Music To Image: Un outil qui transforme votre musique en images uniques

"Music To Image", développée par "fffiloni", a la capacité de convertir la musique en images, permettant aux utilisateurs de visualiser la musique d'une manière nouvelle et créative. Il génère des images uniques basées sur les caractéristiques de la musique entrée, offrant une expérience visuelle innovante qui complète la musique.*Web https://huggingface.co/spaces/fffiloni/Music-To-Image

TokenFlow : Modifiez vos vidéos à partir des instructions du texte

À partir d'une vidéo d'entrée et d'une indication de texte, vous pouvez modifier le style, les objets ou les caractères de votre vidéo.*Demo https://huggingface.co/spaces/weizmannscience/tokenflow *Web https://diffusion-tokenflow.github.io/ *Github https://github.com/omerbt/TokenFlow *Paper https://arxiv.org/abs/2307.10373

AnimateDiff : Créer une image animée à partir d’une instruction de texte

Ce système propose une technique de création d'une séquence d'images cohérente dans le temps pour obtenir une animation à partir de la description d'une image.*Demo https://huggingface.co/spaces/guoyww/AnimateDiff *Web https://animatediff.github.io/ *Github https://github.com/guoyww/animatediff/ *Paper https://arxiv.org/abs/2307.04725

Word-As-Image for Semantic Typography: Générateur de typographie sémantique

Système qui crée une police de caractères dont le style graphique est associé au concept des mots qui sont écrits avec elle. *Web: https://wordasimage.github.io/Word-As-Image-Page/*Demo: https://huggingface.co/spaces/SemanticTypography/Word-As-Image*Github: https://github.com/Shiriluz/Word-As-Image*Paper: https://arxiv.org/abs/2303.01818

AudioGen – Générer des effets audio à partir de textes

Audiogen est un modèle pour la synthèse du son, créé à partir d'Audiocraft, une bibliothèque Meta pytorch pour la recherche sur l'apprentissage profond de la génération audio.*Web https://audiocraft.metademolab.com/audiogen.html *Colab https://colab.research.google.com/github/camenduru/audiogen-colab/blob/main/audiogen_colab.ipynb *Github https://github.com/facebookresearch/audiocraft/blob/main/docs/AUDIOGEN.md *Paper https://arxiv.org/abs/2209.15352

Pix2Pix Video: Edition de style vidéo guidée par texte

Une implémentation de Pix2Pix appliquée à une séquence d'images, que vous pouvez utiliser dans vos propres vidéos. Comme il s'agit d'un processus appliqué à chaque image indépendamment, la vidéo résultante présente des sauts de style, tout en conservant la morphologie de l'image entrante. *Demo https://huggingface.co/spaces/fffiloni/Pix2Pix-Video*Colab https://colab.research.google.com/github/camenduru/pix2pix-video-colab/blob/main/pix2pix-video-colab.ipynb#scrollTo=Cp1aDyeElG57 *Code https://huggingface.co/spaces/fffiloni/Pix2Pix-Video/blob/main/app.py

ControlNet: Du croquis à l’image

Un système qui permet d'utiliser des conditions d'entrée supplémentaires pour les modèles d'imagerie de diffusion, ce qui nous permet de générer des images à partir de croquis, de données de profondeur ou d'autres images accompagnées d'une phrase de description. *Colab https://colab.research.google.com/drive/1VRrDqT6xeETfMsfqYuCGhwdxcC2kLd2P?usp=sharing *Github https://github.com/lllyasviel/ControlNet *Paper https://arxiv.org/abs/2302.05543

BLIP-2: Chat texte et image

Un système qui permet d'avoir des conversations basées sur le contenu d'une image. *Colab https://colab.research.google.com/github/salesforce/LAVIS/blob/main/projects/img2prompt-vqa/img2prompt_vqa.ipynb#scrollTo=7428ac2d *Github https://github.com/salesforce/LAVIS *Paper https://arxiv.org/abs/2301.12597

Hyperreel: Lecteur vidéo 6DOF

Un moyen d'optimiser la lecture des vidéos à 6 degrés de liberté, c'est-à-dire des vidéos dans lesquelles vous pouvez vous déplacer autour de la scène dans son espace tridimensionnel. *Web https://hyperreel.github.io/ *Github https://github.com/facebookresearch/hyperreel *Paper https://arxiv.org/abs/2301.02238

Live 3D: Modélisation et animation de personnages de manga

*Colab https://colab.research.google.com/github/transpchan/Live3D-v2/blob/main/notebook.ipynb *Github https://github.com/transpchan/Live3D-v2/

Arcane, Disney et Archer: Caricaturiste avec styles

Il s'agit d'un imageur de diffusion stable formé à trois styles spécifiques de la méthode Dreambooth. *Demo https://huggingface.co/nitrosocke/Nitro-Diffusion

Plug-and-Play Diffusion: Édition d’image à image basée sur du texte

Une autre alternative à cette tâche est une implémentation basée sur la diffusion stable qui modifie l'apparence d'une image à partir d'invites textuelles tout en conservant sa structure originale. Elle fonctionne en faisant une reconstruction synthétique de l'image originale, en établissant la description de ses composants et en modifiant ensuite ces composants de manière indépendante en fonction de l'entrée textuelle. *Demo https://huggingface.co/spaces/hysts/PnP-diffusion-features *Github https://github.com/MichalGeyer/plug-and-play  *Paper https://arxiv.org/abs/2211.12572

instruct pix2pix: Modifier des images à partir d’un texte

Il s'agit d'une implémentation basée sur stable_diffusion qui modifie l'apparence d'une image à partir d'invites textuelles tout en conservant sa structure d'origine. *Web https://www.timothybrooks.com/instruct-pix2pix/ *Demo https://huggingface.co/spaces/timbrooks/instruct-pix2pix *HuggingFace https://huggingface.co/timbrooks/instruct-pix2pix *Github https://github.com/timothybrooks/instruct-pix2pix *Paper https://arxiv.org/abs/2211.09800

3d diffusion: Génération de modèles 3D à partir d’une seule image

Ce modèle synthétise un modèle 3D à partir de la prédiction de plusieurs parties depuis une perspective unique donnée par une image. *Web https://3d-diffusion.github.io/ *Paper https://arxiv.org/abs/2210.04628

DDSP-VST: Outil de synthèse neurale qui transforme et enrichit votre processus créatif avec des sons innovants

DDSP-VST est un outil qui vous permet d'expérimenter avec de nouveaux sons et de transformer votre processus créatif. Vous pouvez l'utiliser comme un instrument virtuel typique, en l'intégrant dans votre flux de travail avec vos sources et effets MIDI préférés. De plus, il offre des contrôles pour ajuster le ton et obtenir des sons réalistes ou explorer une large gamme de timbres qui s'écartent du son original. Vous pouvez également créer vos propres modèles avec son entraîneur web gratuit, permettant une personnalisation encore plus grande de votre expérience sonore.*Web https://magenta.tensorflow.org/ddsp-vst

Stable diffusion: Du texte à l’image

Un générateur de texte-image pré-entraîné Open Source, l'un des systèmes qui a fait le plus de bruit en 2022 en raison de son caractère libre, a été publié avec ses poids d'entraînement prêts à l'emploi. *Demo https://huggingface.co/spaces/stabilityai/stable-diffusion *Demo Pago https://beta.dreamstudio.ai/dream *Colab https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast_stable_diffusion_AUTOMATIC1111.ipynb *Mac https://diffusionbee.com/ *Pc https://nmkd.itch.io/t2i-gui *Web https://stability.ai/blog/stable-diffusion-public-release