Доклади на Machine Intelligence: В стремежа към Изкуствен общ интелект (AGI), световните модели се разглеждат като ключови за позволяването на машините да разберат физическите закони и да постигнат пространствена интелигентност. Ефективната, здрава и прецизна способност за 3D възприятие се счита широко за основна предпоставка за световните модели.
Като цяло зрелият модел на света се нуждае от три основни способности: непрекъсната памет на дълги пространствено-времеви последователности, причинно-следствено отделяне на сложна динамика и фино възприемане на физически детайли с висока разделителна способност.
Наскоро KOKONI (魔芯科技), заедно с множество изследователски екипи, включително екипа на професор Zhu Lanyun от университета Tongji, пусна четири последователни пробива, базирани на архитектурата Visual Geometry Transformer (VGGT). Тази поредица от работи систематично адресира пречките в 3D възприятието за поточно обработване, динамична устойчивост и фино възприятие, постигайки скок от основна реконструкция на изображение към висококачествени 4D модели на света.
Трите основни ограничения в 3D възприемането: дълги последователности, силна динамика и висока прецизност представляват систематични пречки в реални индустриални сценарии. Когато разделителната способност на входа се увеличава, сцените въвеждат динамични промени и форматите на данни се разширяват до видео потоци, традиционните архитектури са изправени пред значителни предизвикателства в изчислителната мощност, алгоритмите и системния дизайн.
Резултатите от серията VGGT на KOKONI демонстрират как трансформаторите на визуална геометрия могат да преодолеят тези предизвикателства, позволявайки динамична реконструкция в реално време с безпрецедентна прецизност.
Source link
Like this:
Like Loading…
Източник https://bccci.net/bg/feed/