На 21 януари се появи нова информация, която предполага, че DeepSeek може да разкрие следващото си поколение флагмански AI модел, DeepSeek V4, в средата на февруари по време на периода на Лунната Нова година. Очаква се новият модел да предостави значително подобрени възможности за кодиране.

На 20 януари, отбелязвайки първата годишнина от пускането на DeepSeek-R1, разработчиците забелязаха, че DeepSeek е актуализирал голяма партида FlashMLA код на GitHub. В 114 файла неизвестен идентификатор на голям модел с етикет „MODEL1“ се появява 28 пъти.

Този идентификатор се споменава заедно или изрично разграничен от съществуващия модел „V32“ (DeepSeek-V3.2). Въз основа на контекстуален анализ на кода, широко се смята, че „MODEL1“ представлява нов модел, изграден върху различна архитектура, а не малка итерация на текущото поколение.

Разработчиците, анализиращи кода, откриха забележими технически разлики между „MODEL1“ и „V32“, особено в оформлението на кеша ключ-стойност (KV), обработката на разредеността и поддръжката за декодиране на формат на данни FP8. Тези промени предполагат, че новата архитектура може да е специално създадена за подобрена ефективност на паметта и изчислителна производителност.

Преди това изследователският екип на DeepSeek публикува две технически статии, представящи нов метод за обучение, наречен Модифицирани йерархични връзки (mHC) и биологично вдъхновен AI памет модул, известен като „Engram“. Тези издания подхраниха спекулациите, че предстоящият модел на DeepSeek може да интегрира тези най-нови изследователски постижения. Очаквайте скоро повече подробности.

Източник: IThome

Source link

Like this:

Like Loading…

Източник https://bccci.net/bg/feed/

By admin