Доклади на Machine Intelligence: В стремежа към Изкуствен общ интелект (AGI), световните модели се разглеждат като ключови за позволяването на машините да разберат физическите закони и да постигнат пространствена интелигентност. Ефективната, здрава и прецизна способност за 3D възприятие се счита широко за основна предпоставка за световните модели.

Като цяло зрелият модел на света се нуждае от три основни способности: непрекъсната памет на дълги пространствено-времеви последователности, причинно-следствено отделяне на сложна динамика и фино възприемане на физически детайли с висока разделителна способност.

Наскоро KOKONI (魔芯科技), заедно с множество изследователски екипи, включително екипа на професор Zhu Lanyun от университета Tongji, пусна четири последователни пробива, базирани на архитектурата Visual Geometry Transformer (VGGT). Тази поредица от работи систематично адресира пречките в 3D възприятието за поточно обработване, динамична устойчивост и фино възприятие, постигайки скок от основна реконструкция на изображение към висококачествени 4D модели на света.

Трите основни ограничения в 3D възприемането: дълги последователности, силна динамика и висока прецизност представляват систематични пречки в реални индустриални сценарии. Когато разделителната способност на входа се увеличава, сцените въвеждат динамични промени и форматите на данни се разширяват до видео потоци, традиционните архитектури са изправени пред значителни предизвикателства в изчислителната мощност, алгоритмите и системния дизайн.

Резултатите от серията VGGT на KOKONI демонстрират как трансформаторите на визуална геометрия могат да преодолеят тези предизвикателства, позволявайки динамична реконструкция в реално време с безпрецедентна прецизност.

Source link

Like this:

Like Loading…

Източник https://bccci.net/bg/feed/

By admin