Skip to content

A(I)BC: wegwijs in de flows voor generative AI-content

Prompt: Kan je een overzicht geven van de verschillende AIflows voor het genereren van content? Wat is er vandaag allemaal mogelijk in het rijtje textto-image, textto-video, enzovoort? 

Textto-Image 
Hierbij wordt tekst omgezet in afbeeldingen of illustraties. Dit kan gaan van eenvoudige grafische voorstellingen van tekst tot gedetailleerde afbeeldingen op basis van –gedetailleerde-beschrijvingen. 
Bvb.: Dall-E, Midjourney, Stable Diffusion, Google Imagen 

Textto-Video 
Textto-Video-algoritmen zetten geschreven tekst om in videomateriaal. Dit kan variëren van slideshows met afbeeldingen en tekst tot volledig geanimeerde video’s op basis van tekstbeschrijvingen. 
Bvb.: Runway Gen-2, Stable Video Diffusion, Pika, Deep Dream Generator 

Textto-Speech 
Deze technologie zet geschreven tekst om in gesproken woorden. Dit wordt vaak gebruikt voor het maken van spraakassistenten en het toegankelijker maken van tekstinhoud voor mensen met visuele beperkingen. 
Bvb.: Google Cloud Textto-Speech, Amazon Polly 

Speech-toText 
In plaats van tekst te genereren, zet Speech-toText gesproken woorden om in geschreven tekst. Dit wordt vaak gebruikt voor spraakherkenningstoepassingen, zoals transcriptie van spraakopnamen. 
Bvb.: Google Cloud Speech-toText, IBM Watson Speech to Text 

Textto-Code 
Textto-Code-algoritmen proberen code te genereren op basis van natuurlijke taalbeschrijvingen. Dit kan handig zijn voor het automatiseren van programmeertaken. 
Bvb.: OpenAI’s Codex, GitHub Copilot 

Image-toText 
Deze flow doet het omgekeerde van Textto-Image. Het analyseert afbeeldingen en genereert tekstuele beschrijvingen of labels op basis van wat er in de afbeelding te zien is. Dit wordt vaak gebruikt voor automatische beeldtagging en toegankelijkheid. 
Bvb.: Google Cloud Vision, Microsoft Azure Computer Vision 

Image-to-Image 
Dit type AI-flow zet ene soort afbeelding om in een andere. Bijvoorbeeld het omzetten van zwart-witafbeeldingen in kleur, het schilderen van foto’s in de stijl van beroemde kunstenaars, enzovoort. 
Bvb.: DeepArt.io, CycleGAN, Stable Diffusion 

Video-toText 
Video’s kunnen worden geanalyseerd om tekstuele ondertitels of transcripties te genereren. Dit is handig voor videobeschrijvingen en zoekmachineoptimalisatie. 
Bvb.: YouTube Automatic Captions, OpenAI‘s Whisper 

Video-to-Video 
Deze flow slaat op het bewerken of manipuleren van video-inhoud op basis van tekstuele aanwijzingen, zoals het aanpassen van achtergronden, toevoegen van speciale effecten of het verbeteren van de beeldkwaliteit. 
Bvb.: Runway ML, DeepAI Video Enhance, Deforum Stable Diffusion 

Textto-Music 
Textto-Music-algoritmen genereren muziek op basis van geschreven tekst of notities. Dit kan variëren van eenvoudige deuntjes tot het componeren van complexe muziekstukken. 
Bvb.: OpenAI’s MuseNet, Amper Music 

Text-to-Chatbot 
Deze technologie wordt gebruikt om geautomatiseerde chatbots te creëren die op basis van tekstuele input mensachtige gesprekken kunnen voeren. 
Bvb.: Dialogflow, IBM Watson Assistant 

Image-to-3D 
In deze formule worden 2D-afbeeldingen omgezet in 3D-modellen, wat nuttig kan zijn in 3D-modellering en game-ontwikkeling. 
Bvb.: Nerfstudio, Meshroom, RealityCapture, Luma AI 

De AI-flows en –tools groeien momenteel aan een sneltreintempo aan. Wij houden voor jou de vinger aan de pols, en verzamelen onze tests en bevindingen zo overzichtelijk mogelijk.  
Bekijk hier jullie favorieten.