阿里雲通義千問發佈業界首個開源多模態推理模型
瑞財經AI 12月25日,阿里雲通義千問正式發佈了業界首個開源多模態推理模型QVQ-72B-Preview。這一模型的發佈標誌着人工智能領域取得了又一重大進展,它不僅是科技創新的體現,更是解決複雜科學問題方面的應用探索。
QVQ展現出超預期的視覺理解和推理能力,尤其在數學、物理、科學等領域的複雜推理問題上表現尤爲突出。多項評測數據顯示,QVQ超越了此前的視覺理解模型“開源王者”Qwen2-VL,整體表現與“滿血版”OpenAI o1、Claude3.5 Sonnet等推理模型相當。QVQ能夠在解決這些領域難題時,給出類似人類甚至科學家的思考過程和準確答案。
QVQ是一個基於視覺進行深度思考推理的大模型。它不僅能感知視覺內容,還能據此作出更細緻的分析推理。與傳統模型不同,QVQ能夠質疑自身假設,仔細審視推理過程的每一步,這使得其推理結果更加可靠。QVQ可以識別“梗圖”內涵,看真實照片可以合理推斷出物體個數及高度等信息。
目前,QVQ-72B-Preview已在魔搭社區和HuggingFace平臺上開源,開發者可以直接上手體驗。這一模型的發佈進一步豐富了阿里雲通義的AI產品線。據瞭解,此前阿里雲通義發佈的AI推理模型QwQ受到全球開發者熱捧,一發布就登上HuggingFace模型趨勢榜榜首。截至目前,通義千問Qwen的衍生模型數已突破7.8萬個。
QVQ的推出爲教育、科研、內容創作等領域的工作效率提升提供了新的可能。
【責編:麗婭】