Apple prezentuje Matrix3D — model AI generujący sceny 3D z zaledwie trzech zdjęć
Zespół Apple Machine Learning, we współpracy z Uniwersytetem w Nankinie i Uniwersytetem Nauki i Technologii w Hongkongu, zaprezentował Matrix3D — zaawansowany model AI, który potrafi odtworzyć sceny i obiekty 3D na podstawie jedynie trzech zdjęć 2D.
Matrix3D to tzw. Large Photogrammetry Model, który upraszcza tradycyjny proces fotogrametrii — czyli tworzenia modeli 3D na podstawie zdjęć — poprzez zastosowanie jednej, zunifikowanej architektury. Zamiast wielu etapów (jak estymacja pozycji czy głębi), Matrix3D wykonuje wszystko w jednym kroku, co zwiększa dokładność i efektywność.
Model został wytrenowany z wykorzystaniem strategii maskowania danych wejściowych, znanej z pierwszych wersji modeli Transformer, takich jak ChatGPT. Dzięki temu Matrix3D potrafi generować dokładne rekonstrukcje 3D nawet przy ograniczonych danych.
Efekty są imponujące — model potrafi wygenerować szczegółowe obiekty i środowiska 3D z trzech zdjęć, co otwiera ogromne możliwości np. dla Apple Vision Pro i innych urządzeń XR.
Kod źródłowy Matrix3D jest dostępny na GitHubie, a pełna publikacja trafiła na arXiv. Na stronie projektu można obejrzeć przykładowe filmy oraz interaktywne chmury punktów.