☰

阿里雲通義千問發佈業界首個開源多模態推理模型

瑞財經AI 12月25日，阿里雲通義千問正式發佈了業界首個開源多模態推理模型QVQ-72B-Preview。這一模型的發佈標誌着人工智能領域取得了又一重大進展，它不僅是科技創新的體現，更是解決複雜科學問題方面的應用探索。

QVQ展現出超預期的視覺理解和推理能力，尤其在數學、物理、科學等領域的複雜推理問題上表現尤爲突出。多項評測數據顯示，QVQ超越了此前的視覺理解模型“開源王者”Qwen2-VL，整體表現與“滿血版”OpenAI o1、Claude3.5 Sonnet等推理模型相當。QVQ能夠在解決這些領域難題時，給出類似人類甚至科學家的思考過程和準確答案。

QVQ是一個基於視覺進行深度思考推理的大模型。它不僅能感知視覺內容，還能據此作出更細緻的分析推理。與傳統模型不同，QVQ能夠質疑自身假設，仔細審視推理過程的每一步，這使得其推理結果更加可靠。QVQ可以識別“梗圖”內涵，看真實照片可以合理推斷出物體個數及高度等信息。

目前，QVQ-72B-Preview已在魔搭社區和HuggingFace平臺上開源，開發者可以直接上手體驗。這一模型的發佈進一步豐富了阿里雲通義的AI產品線。據瞭解，此前阿里雲通義發佈的AI推理模型QwQ受到全球開發者熱捧，一發布就登上HuggingFace模型趨勢榜榜首。截至目前，通義千問Qwen的衍生模型數已突破7.8萬個。

QVQ的推出爲教育、科研、內容創作等領域的工作效率提升提供了新的可能。

【責編：麗婭】

阿里雲通義千問發佈業界首個開源多模態推理模型

相關資訊