Apple prezentuje Matrix3D — model AI generujący sceny 3D z zaledwie trzech zdjęć

Krzysztof Kołacz

Dodane: 10 miesięcy temu
fot. Wojtek Pietrusiewicz

Zespół Apple Machine Learning, we współpracy z Uniwersytetem w Nankinie i Uniwersytetem Nauki i Technologii w Hongkongu, zaprezentował Matrix3D — zaawansowany model AI, który potrafi odtworzyć sceny i obiekty 3D na podstawie jedynie trzech zdjęć 2D.

Matrix3D to tzw. Large Photogrammetry Model, który upraszcza tradycyjny proces fotogrametrii — czyli tworzenia modeli 3D na podstawie zdjęć — poprzez zastosowanie jednej, zunifikowanej architektury. Zamiast wielu etapów (jak estymacja pozycji czy głębi), Matrix3D wykonuje wszystko w jednym kroku, co zwiększa dokładność i efektywność.

Model został wytrenowany z wykorzystaniem strategii maskowania danych wejściowych, znanej z pierwszych wersji modeli Transformer, takich jak ChatGPT. Dzięki temu Matrix3D potrafi generować dokładne rekonstrukcje 3D nawet przy ograniczonych danych.

Efekty są imponujące — model potrafi wygenerować szczegółowe obiekty i środowiska 3D z trzech zdjęć, co otwiera ogromne możliwości np. dla Apple Vision Pro i innych urządzeń XR.

Kod źródłowy Matrix3D jest dostępny na GitHubie, a pełna publikacja trafiła na arXiv. Na stronie projektu można obejrzeć przykładowe filmy oraz interaktywne chmury punktów.

AI 3D z 2D zdjęć Apple AI 3D Apple AR Apple Machine Learning Apple Matrix3D Apple Vision Pro fotogrametria AI immersyjne technologie Apple Matrix3D GitHub model fotogrametryczny Apple rekonstrukcja 3D technologia Apple 2025

Krzysztof Kołacz

🎙️ O technologii i nas samych w podcaście oraz newsletterze „Bo czemu nie?”. ☕️ O kawie w podcaście „Kawa. Bo czemu nie?”. 🏃🏻‍♂️ Po godzinach biegam z wdzięczności za życie.