☰

超越YOLOv10/11、RT-DETRv2/3！D-FINE重新定義邊界框迴歸任務

D-FINE 的作者均來自中國科學技術大學。第一作者爲中科大在讀博士生彭巖鬆 (https://scholar.google.com/citations?user=CTidez8AAAAJ&hl=zh-CN)，其研究方向爲實時目標檢測以及神經形態視覺，已在 AAAI、ICCV、CVPR 等國際頂級會議上以第一作者身份發表多篇論文。本文由吳楓教授、孫曉豔教授和張越一副研究員共同指導，其他作者包括中科大博士生李和倍及碩士生吳沛熹。

引言

在當前內卷嚴重的實時目標檢測 (Real-time Object Detection) 領域，性能與效率始終是難以平衡的核心問題。絕大多數現有的 SOTA 方法僅依賴於更先進的模塊替換或訓練策略，導致性能逐漸趨於飽和。

爲了打破這一瓶頸，來自中科大的研究團隊提出了 D-FINE，重新定義了邊界框迴歸任務。不同於傳統的固定座標預測，D-FINE 創新了兩種方法：細粒度分佈優化 (FDR) 和全局最優定位自蒸餾 (GO-LSD)。通過將回歸任務轉化爲細粒度的分佈優化任務，D-FINE 不僅顯著簡化了優化難度，還能夠更精確地建模每條邊界的不確定性。此外，D-FINE 將定位知識 (Localization Knowledge) 融入到模型輸出，通過高效的自蒸餾策略在各層共享這些知識，因而在不增加額外訓練成本的前提下，實現了性能的進一步顯著提升。

憑藉這些創新，D-FINE 在 COCO 數據集上以 78 FPS 的速度取得了 59.3% 的平均精度 (AP)，遠超 YOLOv10、YOLO11、RT-DETR v1/v2/v3 及 LW-DETR 等競爭對手，成爲實時目標檢測領域新的領跑者。目前，D-FINE 的所有代碼、權重以及工具已開源，包含了詳細的預訓練教程和自定義數據集處理指南。

視頻鏈接：https://mp.weixin.qq.com/s/olVR2MoznWwhKM5QwonlgA

研究團隊分別使用 D-FINE 和 YOLO11 對 YouTube 上的一段複雜街景視頻進行了目標檢測。儘管存在逆光、虛化模糊和密集遮擋等不利因素，D-FINE-X 依然成功檢測出幾乎所有目標，包括揹包、自行車和信號燈等難以察覺的小目標，其置信度、以及模糊邊緣的定位準確度明顯高於 YOLO11x。

細粒度分佈優化 (FDR)

FDR (Fine-grained Distribution Refinement) 將檢測框的生成過程分解爲：

1.初始框預測：與傳統 DETR 方法類似，D-FINE 的解碼器會在第一層將 Object Queries 轉換爲若干個初始邊界框。這些邊界框只用於初始化，不需要特別精確。

2.細粒度的分佈優化：與傳統方法不同，D-FINE 的解碼層不會直接預測新的邊界框，而是基於初始邊界框生成四組概率分佈，並通過逐層優化對其進行調整。這些概率分佈本質上是檢測框的一種「細粒度中間表徵」。D-FINE 可以通過微調這些表徵，不同幅度地獨立調整各邊緣。

具體流程如圖所示：

將邊界框迴歸任務重新定義爲 FDR 有以下優點：

1.過程簡化：在傳統 L1 損失和 IoU 損失進行優化的基礎上，模型還通過標籤和預測結果之間的「殘差」進一步約束這些中間態的概率分佈。這使得每個解碼層能夠更有效地關注當前的定位誤差。隨着層數增加，優化的目標變得更加簡單，從而簡化了整體的優化過程。

2.對複雜場景的魯棒性更強：FDR 中概率的高低本質上反應了模型對邊界微調的自信程度。這使得 D-FINE 能夠在不同網絡深度下對每條邊的不確定性獨立建模，從而使模型真正地理解定位的好壞。在遮擋、運動模糊和低光照等複雜的實際場景下，D-FINE 表現出了更強的魯棒性，相比直接回歸四個固定值的方法要更爲穩健。

3.靈活的優化機制：D-FINE 通過加權求和將概率分佈轉化爲最終的邊界框偏移值。指數型加權函數 W (n) 保證了能夠在初始框準確時進行細微調整，在必要時提供大幅度修正。

4.可擴展性：FDR 通過將回歸任務定義爲同分類任務一致的概率分佈預測問題，這使得目標檢測模型可以更好地受益於知識蒸餾、多任務學習和分佈優化等更多領域的創新，從而更有效地適應和整合新的技術，突破傳統方法的侷限。

全局最優定位自蒸餾機制 GO-LSD

GO-LSD (Global Optimal Localization Self-Distillation) 可以將知識蒸餾無痛應用到 FDR 框架檢測器。

基於 FDR 框架的目標檢測器既可以實現知識傳遞，又可以保持一致的優化目標。

新任諾貝爾物理學獎得主 Geoffrey Hinton 在《Distilling the Knowledge in a Neural Network》一文中提到：概率即「知識」。FDR 將概率分佈變成了網絡輸出，並搭載了定位知識 (Localization Knowledge)。因此，僅計算 KL 散度損失就能將這些「知識」從深層傳遞到淺層。由於 FDR 架構中每一個解碼層都共享一個共同目標，即減少初始邊界框與真實邊界框之間的殘差。因此最後一層生成的精確概率分佈可以作爲前面每一層的最終目標，並通過蒸餾引導前幾層。

由於 FDR 架構中每一個解碼層都共享一個共同目標：減少初始邊界框與真實邊界框之間的殘差；因此最後一層生成的精確概率分佈可以作爲前面每一層的最終目標，並通過蒸餾引導前幾層。

研究團隊在 FDR 的框架上進一步提出了全局最優定位自蒸餾 GO-LSD，在網絡層間實現了定位知識蒸餾，進一步擴展了 D-FINE 的能力，具體流程如圖：

FDR 與GO-LSD 產生了一種雙贏的「合力」：隨着訓練的進行，最後一層的預測將變得越來越準確，其生成的軟標籤也能夠更好地幫助前幾層提高預測準確性。反過來，前幾層將更快地定位到準確位置。這相當於深層的優化任務得到了簡化，從而進一步提高了整體準確性。

實驗結果

在 COCO 數據集上，D-FINE-L 和 D-FINE-X 分別以 8.07 ms (124 FPS)和 12.89 ms (78 FPS)的時延取得了 54.0%和 55.8%的 AP，遠超其餘所有實時目標檢測器，打敗了 YOLOv10 (53.2%，54.4%)、YOLO11 (53.4%，54.7%) 及 RT-DETRv2 (53.4%，54.6%)。

在 Objects365 上進行了簡單的有監督預訓練後，D-FINE 的準確率達到了 59.3% AP。在 paperwithcode 網站的 Real-Time Object Detection on MS COCO benchmark 上，D-FINE 的速度和性能都遠超其他方法，取得了 Top1 的成績。

相比 baseline RT-DETR，D-FINE-L 和 D-FINE-X 大幅降低了參數量和計算複雜度。在推理速度顯著提升的同時，分別取得了 1.8% 和 3.2% 的顯著性能提升。

更輕量化的 D-FINE-S 和 D-FINE-M 在 T4 GPU 上分別以 3.49 ms (287 FPS) 和 5.62 ms (178 FPS) 的時延下取得了 48.5% 和 52.3% 的 AP，超過 YOLOv10 (46.3%，51.1%)、YOLO11 (46.6%，51.2%) 及 RT-DETRv2 (48.1%，49.9%)。預訓練後，D-FINE-S 和 D-FINE-M 分別取得了 50.7% 和 55.1% 的 AP。

雖然 FDR 和 GO-LSD 能夠顯著提高性能，但不會直接讓網絡更快或更輕。爲了解決這個問題，研究團隊對 DETR 架構進行了輕量化處理。這些調整不可避免地讓性能有所下降，但 D-FINE 方法最終實現了速度、參數、計算量與性能的平衡。下表展示了從 baseline 到 D-FINE 的逐步修改過程。每一步都含展示了模型在 AP 、參數量、時延以及 FLOPs 上的變化。

研究團隊對一系列非實時的 DETR 檢測模型應用了 FDR 和 GO-LSD。實驗證明，在幾乎沒有額外參數量和算力的情況下，最高提升了 5.3% 的 AP，證明了方法的魯棒性和泛化性。

根據消融實驗，含有 FDR 的檢測器和原始檢測器在速度、參數量和計算複雜度上幾乎沒有區別，可以實現無縫替換。

研究團隊分析了訓練成本，發現額外的時間和顯存消耗主要來自生成用於監督分佈的 FGL Loss 標籤。通過對 D-FINE 進行的進一步優化，這些額外的訓練時間和顯存佔用被控制在 6% 和 2% 以內，對整體影響很小。

D-FINE 預測的可視化

以下是 D-FINE 在各種複雜檢測場景中的預測結果。這些場景包括遮擋、低光照、運動模糊、景深效果和密集場景。可以看出，面對這些具有挑戰性的場景，D-FINE 能夠產生準確的定位結果。

下圖展示了第一層和最後一層的預測結果、對應四條邊的分佈、以及加權後的分佈。可以看出，預測框的定位會隨着分佈的優化而變得更加精準。

總結和侷限

D-FINE 將邊界框迴歸轉化爲逐層優化的概率分佈預測，顯著提升了模型在多任務場景中的兼容性。D-FINE 爲目標檢測模型的設計提供了一條新思路，後續可以考慮進一步挖掘 D-FINE 在跨任務學習和模型輕量化方面的潛力。

D-FINE 也有一些侷限：相比於大模型， D-FINE 的輕量化版本對於性能提升不太明顯。這可能是因爲淺層解碼器的預測精度不高，無法有效將定位信息傳遞給前幾層。

未來的研究可以考慮在提高輕量化模型定位能力的同時，避免增加推理延遲。一種思路是繼續改進架構設計，嘗試在訓練時引入額外的異構解碼層，在推理時丟棄這些層，保持模型的輕量化。如果訓練資源足夠，還可以直接用大模型對小模型進行蒸餾，而不是依賴自蒸餾。

思考和展望

2024 年，實時目標檢測領域經歷了多次版本迭代，YOLO 系列先後推出了 YOLOv9、YOLOv10，以及 YOLO11。而 DETR 系列則在 RT-DETR 之後，陸續推出了 LW-DETR、RT-DETRv2 和 RT-DETRv3。

這兩類模型的重要突破，實質上得益於相互借鑑和融合。RT-DETR 引入了 YOLO 的 RepNCSP 模塊，以替代冗餘的多尺度自注意力層，通過重新設計輕量化的混合編碼器，實現了實時 DETR；而 YOLOv10 借鑑了 DETR 的匹配策略，通過訓練額外的一對一檢測頭，對密集 anchor 預測進行自動篩選，避免了 NMS 後處理，顯著提升了速度。此外，YOLOv10 和 YOLO11 也引入了自注意力機制，進一步增強了大尺度目標的檢測性能。

儘管這些改進取得了顯著的效果，但社區對未來的發展方向產生了疑問：在兩類模型趨於一致的背景下，實時目標檢測的下一步將如何發展？可以預見，在目標檢測這一競爭激烈的領域，繼續進行模塊替換的收益將逐漸減少，可能很快遇到瓶頸。

而基於傳統框架的訓練策略改進，或許對一些舊的網絡（如常用的 Deformable DETR）有效，但應用於最新的 SOTA 網絡時，往往難以取得明顯的提升，甚至可能產生負面影響。特別是對於計算資源有限的小型團隊，即使是精妙的訓練策略，若缺乏大規模的超參數搜索，也難以取得預期的效果。

D-FINE 的出現，爲目標檢測帶來了全新的思路。通過引入 FDR 和 GO-LSD，D-FINE 重新定義了目標檢測中的邊界框迴歸任務。這種創新有望突破當前的瓶頸，爲實時目標檢測領域提供新的發展方向。

超越YOLOv10/11、RT-DETRv2/3！D-FINE重新定義邊界框迴歸任務

相關資訊