4月5日,Meta公司發(fā)布了其大型語言模型Llama的最新版本Llama 4 Scout和Llama 4 Maverick,同時預(yù)告了Llama 4 Behemoth,是“新模型中的教師”。Llama 4支持12種語言,被稱為目前最強(qiáng)的開源多模態(tài)大模型。據(jù)Meta介紹,Llama4是多模態(tài)大模型,能處理整合多種數(shù)據(jù),能在不同格式間實現(xiàn)內(nèi)容轉(zhuǎn)換,效率倍增。
一、Llama 4主要特點
1、采用MoE架構(gòu)
由于本次是Llama首次采用混合專家架構(gòu),任務(wù)執(zhí)行時僅激活部分參數(shù),例如如Maverick總參數(shù)4000億,活躍參數(shù)170億,顯著提升了訓(xùn)練和推理效率。
2、多模態(tài)融合
Llama 4早期融合策略統(tǒng)一處理文本、圖像、視頻,突破傳統(tǒng)多模態(tài)模型的分階段處理限制。
3、超長上下文
Llama 4 Scout支持1000萬Token上下文窗口,大約2000萬字文本或20小時視頻,通過iRoPE架構(gòu)能夠?qū)崿F(xiàn)“短序列訓(xùn)練,長序列泛化”。
4、部署
Int4量化后,Llama 4 Scout支持單張H100 GPU運(yùn)行,Llama 4 Maverick則需H100 DGX集群,Llama 4 Behemoth據(jù)說使用了32000塊GPU訓(xùn)練。
5、后訓(xùn)練策
Llama 4采用“輕量級SFT→在線RL→輕量級DPO”流程,減少對齊約束,增強(qiáng)模型探索能力。同時引入“自我批判式數(shù)據(jù)篩選”,利用早期模型Check point檢查點過濾低質(zhì)量訓(xùn)練樣本,顯著提升最終性能。
二、Llama 4主要產(chǎn)品
1、LLaMA 4 Scout
LLaMA 4 Scout擁有1000萬詞元(token)的超長上下文窗口,遠(yuǎn)遠(yuǎn)領(lǐng)先于多數(shù)現(xiàn)有開源大語言模型。在推理、摘要生成與指令遵循等標(biāo)準(zhǔn)評測中,全面超越Google的Gemma 3與Mistral 3.1。
LLaMA 4 Scout在單張NVIDIA H100 GPU上高效運(yùn)行而優(yōu)化,是一款輕量卻不失強(qiáng)勁性能的模型,適合科研人員與中小型企業(yè)應(yīng)用。
2、LLaMA 4 Maverick
LLaMA 4 Maverick采用專家混合機(jī)制(Mixture-of-Experts, MoE),僅激活部分參數(shù)進(jìn)行計算,在保持卓越表現(xiàn)的同時顯著提升效率。精于代碼生成、多跳推理與高級搜索任務(wù)。同時劍指當(dāng)前語言模型的重量級選手,如GPT-4o、Claude3.5 與DeepSeek-V3。
3、Llama 4 Behemoth
Llama 4 Behemoth預(yù)計將在2025年4月29日的LLaMACon(Meta首屆開源AI大會)上正式發(fā)布,具體功能大家一起拭目以待吧。
亮點一覽:
- 采用專家混合架構(gòu)(Mixture-of-Experts),在每次推理中僅啟用部分模型參數(shù);
- 總參數(shù)規(guī)模高達(dá)2萬億,每次推理激活參數(shù)約2880億聚焦科學(xué)、數(shù)學(xué)、多語言推理與代碼生成等高復(fù)雜度任務(wù);
- 有望在STEM領(lǐng)域的基準(zhǔn)測試中超越GPT-4.5與Claude Sonnet 3.7;
- 預(yù)計將在2025年4月29日的LLaMACon(Meta首屆開源AI大會)上正式發(fā)布。
三、Llama 4性能表現(xiàn)
Llama 4對比其他模型的性能表現(xiàn)
從下圖數(shù)據(jù)可以看出Llama 4 Scout在輕量級類別中表現(xiàn)優(yōu)于所有模型,Llama 4 Maverick與GPT-4o和Claude不相上下。
-
廣告合作
-
QQ群號:4114653