專為Agentic RAG與語義搜索量身打造,以行業(yè)頂尖的準確率實現(xiàn)跨模態(tài)檢索
北京2025年10月29日 /美通社/ -- 亞馬遜云科技宣布,Amazon Nova Multimodal Embeddings多模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖多模態(tài)嵌入模型。該模型是首個通過單一模型支持文本、文檔、圖像、視頻與音頻的統(tǒng)一嵌入模型,能以行業(yè)頂尖的準確率實現(xiàn)跨模態(tài)檢索。
當今,企業(yè)正不斷尋求解決方案,以期從文本、圖像、文檔、視頻、音頻等海量非結(jié)構(gòu)化數(shù)據(jù)中挖掘價值。例如,某企業(yè)可能擁有產(chǎn)品圖片、包含信息圖與文字的宣傳冊,以及用戶上傳的視頻片段。嵌入模型被廣泛應用于這些場景,它可將文本、視覺、音頻輸入轉(zhuǎn)換為數(shù)值表示形式的嵌入向量,這些嵌入向量會捕捉輸入內(nèi)容的語義信息,供AI系統(tǒng)進行比較、搜索與分析,為語義搜索、檢索增強生成(RAG)等場景提供技術支撐。盡管嵌入模型能夠挖掘非結(jié)構(gòu)化數(shù)據(jù)的價值,但傳統(tǒng)模型通常僅擅長處理單一類型的內(nèi)容。這一局限迫使客戶要么構(gòu)建復雜的跨模態(tài)嵌入解決方案,要么僅局限于單一內(nèi)容類型的應用場景。這一問題同樣存在于混合模態(tài)內(nèi)容類型,例如文本與圖像內(nèi)容交織的文檔,或融合視覺、音頻、文本元素的視頻,現(xiàn)有模型也難以有效捕捉這類內(nèi)容中的跨模態(tài)關聯(lián)。
Amazon Nova多模態(tài)嵌入模型正為解決上述挑戰(zhàn)而生!它為文本、文檔、圖像、視頻、音頻構(gòu)建了統(tǒng)一的語義空間,可支持多種場景,包括混合模態(tài)內(nèi)容的跨模態(tài)搜索、基于參考圖像的搜索,以及視覺文檔檢索。
開發(fā)團隊基于各類基準測試對該模型性能進行了評估,結(jié)果顯示,其開箱即用的準確率處于領先水平。Amazon Nova多模態(tài)嵌入模型支持的上下文長度最高達8000 tokens,可處理的文本語言多達200種,并能通過同步與異步API接收輸入。此外,它支持分段處理功能(也稱為 "分塊",Chunking),可將長文本、視頻或音頻內(nèi)容拆分為易于處理的片段,并為每個片段生成嵌入向量。最后,該模型提供四種輸出嵌入維度,采用套娃表征學習(Matryoshka Representation Learning,MRL)訓練,能在幾乎不影響準確率的前提下,實現(xiàn)低延遲的端到端檢索。
Amazon Nova多模態(tài)嵌入模型提供四種輸出維度選項:3072、1024、384和256。輸出維度越大,生成的表征信息則越詳細,但也需要占用更多的存儲空間和計算資源。相反,輸出維度越小,則能在檢索性能與資源效率之間實現(xiàn)更實用的平衡。這種靈活性可幫助用戶根據(jù)具體應用場景和成本需求進行優(yōu)化。
該模型能處理較長的上下文內(nèi)容。對于文本輸入,它單次可處理多達8192個tokens;對于視頻和音頻輸入,支持處理長達30秒的片段,且能對更長的文件進行分段處理。在處理大型媒體文件時,這種分段能力尤為實用——模型會將文件拆分為易于處理的片段,并為每個片段生成嵌入向量。
該模型包含集成了內(nèi)置于Amazon Bedrock的負責任的AI功能。提交用于生成嵌入向量的內(nèi)容會經(jīng)過Amazon Bedrock內(nèi)容安全過濾器的檢測,同時模型還內(nèi)置公平性措施以減少偏差。
該模型可通過同步和異步API調(diào)用。同步API適用于需要即時響應的實時應用場景,例如在搜索界面中處理用戶查詢;異步API則能更高效地處理對延遲不敏感的工作負載,因此更適合處理視頻等大型內(nèi)容。
Amazon Nova多模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,可用區(qū)域包括美國東部(弗吉尼亞北部)的亞馬遜云科技區(qū)域。
即刻體驗Amazon Nova多模態(tài)嵌入模型,開啟多模態(tài)AI應用構(gòu)建之旅!更多詳情可參閱Amazon Bedrock頁面及《Amazon Nova用戶指南》文檔。