近日,蘋果公司與瑞士洛桑聯(lián)邦理工學院(EPFL)聯(lián)合開源了一款名為4M-21的多模態(tài)視覺模型。該模型具有廣泛的通用性和靈活性,盡管只有30億參數(shù),但它可以執(zhí)行數(shù)十種任務,包括圖像分類、目標檢測、語義分割、實例分割、深度估計和表面法線估計等。
4M-21模型在21種不同的模態(tài)下進行訓練,能夠處理包括圖像、文本、音頻等多種模態(tài)的任務。這種多模態(tài)能力使其在跨模態(tài)檢索、可控生成和開箱即用性能方面表現(xiàn)出色。
4M-21還支持任意到任意模態(tài)的轉(zhuǎn)換,進一步擴展了其應用范圍。
4M-21模型的推出標志著從傳統(tǒng)單模態(tài)優(yōu)化模型向多模態(tài)綜合處理能力的重大轉(zhuǎn)變,展示了蘋果在AI領域的強大實力和創(chuàng)新能力。
開源地址:https://github.com/apple/ml-4m/
論文地址:https://arxiv.org/abs/2406.09406
在線demo:https://huggingface.co/spaces/EPFL-VILAB/4M