Stability zapowiada Stable Diffusion 3 – lepsze niż najnowsze Dall-E?

Dariusz Hałas

Dodane: 2 lata temu

W świecie AI zmiany postępują coraz szybciej. Przed chwilą Google ogłosiło modele Gemma, a także najnowszą generację Gemini 1.5 Pro, Elon Musk od dłuższego czasu trolluje na X Grokiem, tymczasem Stability zapowiada kolejną generację swojego generatywnego modelu do kreacji ilustracji: Stable Diffusion 3. Zaprezentowano też efekty jego działania.

Uwaga o coraz szybszych zmianach w kolejnych generacjach zaawansowanych modeli sztucznej inteligencji dotyczy nie tylko dużych graczy, takich jak np. Microsoft i jego Copilota, OpenAI wraz modelem GPT-4 Turbo czy rewolucyjnym modelem kreacji wideo Sora, ale również tych mniejszych.

Model Stable Diffusion 2 zadebiutował przecież stosunkowo niedawno, 24 listopada 2023 roku. Minął zaledwie kwartał i już Stability zapowiada kolejną generację: Stable Diffusion 3.

Krótkie przypomnienie, Stable Diffusion to model generatywny text-to-image, czyli wpisujesz jaki obraz chcesz uzyskać, a sztuczna inteligencja robi co trzeba. Dotychczas efekty działania Stable Diffusion 2 były dość niezłe, ale np. AI miała wyraźne problemy z generowaniem np. znaków.

Wraz z najnowszym modelem Stable Diffusion 3 te i wiele innych problemów z generowaniem zdjęć i ilustracji, przechodzą do historii. Wszystkie grafiki jakie tu zamieściłem zostały wygenerowane właśnie za pomocą modelu Stable Diffusion 3 (nie ja je wygenerowałem, to demonstracyjne ilustracje zamieszczone przez Stability).

Stability informuje, że nowy model nie jest jeszcze publicznie dostępny, ale chętni do jego wypróbowania mogą zapisywać się na listę oczekujących. Zgodnie z informacjami udostępnionymi przez twórców nowego modelu, sieć neuronowa jest w stanie pracować z liczbą parametrów od 800 mln do 8 mld.

Announcing Stable Diffusion 3, our most capable text-to-image model, utilizing a diffusion transformer architecture for greatly improved performance in multi-subject prompts, image quality, and spelling abilities.

Today, we are opening the waitlist for early preview. This phase… pic.twitter.com/FRn4ofC57s

— Stability AI (@StabilityAI) February 22, 2024

Od strony technicznej model wykorzystuje metody transformatora dyfuzyjnego oraz technikę dopasowania przepływu. Szczegółowy raport techniczny w chwili tworzenia niniejszego materiału nie był jeszcze dostępny publicznie, ale Stability informuje, że wkrótce zamieści bardziej szczegółowe informacje.