德國的研究人員開發了一種“看到”人類的AI視覺模型。 在《自然人類行為》雜誌上詳細介紹了,全圖形神經網絡(All-tnn)在現實世界中的空間偏見,例如,與人類相比,

一種類似大腦的建築,挑戰常規AI

新型模型直接直接面對大多數現代計算機視覺系統的建築基礎。根據 IEEE Spectrum spectrum 的報告,All-TNN旨在模仿人類視覺皮層的地形,有組織的結構。這與常規AI。該技術在圖像上複製相同的特徵探測器。研究主管Tim C. Kietzmann教授稱這是“工程技巧,可以更有效地學習”,並指出它在生物學上是不可能的。 The brain simply doesn’t work that way.

Kietzmann explains that the way knowledge is ordered in the brain is fundamentally different from how it is in deep neural networks, “One of the things you notice when you look at the way knowledge is ordered in the brain, is that it’s fundamentally different to how it is ordered in deep neural networks, such as convolutional neural nets.”全程避免重量共享。相反,它使用了“平滑度約束”,鼓勵相鄰的人造神經元學習相似但不完全相同的特徵。

這種方法會產生平穩的圖像結構。在測試中,全程學習了類似人類的空間偏見。合著者Zejin Lu解釋說:“對於人類,當您發現某些物體時,它們具有典型的位置。您已經知道鞋子通常在地面上。飛機,它在頂部。”該模型與人類視野相比,比標準CNN高三倍,表明它已經從數據中學到了這些上下文規則。

績效與效率:類似人類的權衡

這種類似人類的人的行為是由折衷的。 All-TNN的圖像分類精度(約36%)低於測試的CNN所獲得的43.2%。對於需要原始分類功率的任務,建立的模型仍然具有優勢。

,但全程TNN的真正勝利是其效率。儘管參數的大約是13倍,但該模型的消耗比CNN少了十倍。這是因為其地形結構使其可以將處理能力集中在圖像的最重要部分,就像人類視覺一樣。

這種效率對AI在邊緣設備和低功耗硬件上具有重大影響,而能量消耗是關鍵的瓶頸。研究表明,更好的建築設計可以比簡單地擴展模型和數據更有效。

在專業模型時代

中,All-TNN的開發與更廣泛的行業趨勢保持一致。公司越來越多地創建專業的,通常是開放的模型,作為大規模通用系統的替代品。這包括Cohere的多語言Aya Vision和DeepSeek的VL2等模型,用於文檔分析。

這些系統以及Roboflow的實時RF-Detr,顯示了針對量身定制的解決方案的樞紐。他們優先考慮特定功能(例如研究靈活性,文檔理解或優勢性能),這是一種適合的方法。

研究挑戰了“規模就是您所需要的一切”哲學,該哲學多年來一直主導著AI。凱特曼(Kietzmann)認為,這種方法變得不滿意,並指出:“有這種趨勢,一種感覺,規模太無聊了認知如何產生的基本問題。” All-TNN為當前範式提供了令人信服的替代方案。

通過關註生物學的合理性和效率,作者希望他們的工作將為理解智力(包括人工和人類)提供更完整的框架。它標誌著人工智能研究的潛在轉變,超越了蠻力計算,以更優雅,受腦為靈感的設計。

Categories: IT Info