Mastodon
Zdjęcie okładkowe wpisu Apple prezentuje Matrix3D — model AI generujący sceny 3D z zaledwie trzech zdjęć

Apple prezentuje Matrix3D — model AI generujący sceny 3D z zaledwie trzech zdjęć

0
Dodane: 14 godzin temu
fot. Wojtek Pietrusiewicz

Zespół Apple Machine Learning, we współpracy z Uniwersytetem w Nankinie i Uniwersytetem Nauki i Technologii w Hongkongu, zaprezentował Matrix3D — zaawansowany model AI, który potrafi odtworzyć sceny i obiekty 3D na podstawie jedynie trzech zdjęć 2D.

Matrix3D to tzw. Large Photogrammetry Model, który upraszcza tradycyjny proces fotogrametrii — czyli tworzenia modeli 3D na podstawie zdjęć — poprzez zastosowanie jednej, zunifikowanej architektury. Zamiast wielu etapów (jak estymacja pozycji czy głębi), Matrix3D wykonuje wszystko w jednym kroku, co zwiększa dokładność i efektywność.

Model został wytrenowany z wykorzystaniem strategii maskowania danych wejściowych, znanej z pierwszych wersji modeli Transformer, takich jak ChatGPT. Dzięki temu Matrix3D potrafi generować dokładne rekonstrukcje 3D nawet przy ograniczonych danych.

Efekty są imponujące — model potrafi wygenerować szczegółowe obiekty i środowiska 3D z trzech zdjęć, co otwiera ogromne możliwości np. dla Apple Vision Pro i innych urządzeń XR.

Kod źródłowy Matrix3D jest dostępny na GitHubie, a pełna publikacja trafiła na arXiv. Na stronie projektu można obejrzeć przykładowe filmy oraz interaktywne chmury punktów.

Krzysztof Kołacz

🎙️ O technologii i nas samych w podcaście oraz newsletterze „Bo czemu nie?”. ☕️ O kawie w podcaście „Kawa. Bo czemu nie?”. 🏃🏻‍♂️ Po godzinach biegam z wdzięczności za życie.

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .