[論文レビュー] Rethinking the Harmonic Loss via Non-Euclidean Distance Layers
要約: 本論文は、最終分類層でユークリッド距離を非ユークリッド距離のスペクトラムに置き換えることで調和損失を拡張し、ビジョンと言語タスク全般で性能、解釈性、持続可能性を評価する。
Cross-entropy loss has long been the standard choice for training deep neural networks, yet it suffers from interpretability limitations, unbounded weight growth, and inefficiencies that can contribute to costly training dynamics. The harmonic loss is a distance-based alternative grounded in Euclidean geometry that improves interpretability and mitigates phenomena such as grokking, or delayed generalization on the test set. However, the study of harmonic loss remains narrow: only Euclidean distance is explored, and no systematic evaluation of computational efficiency or sustainability was conducted. We extend harmonic loss by systematically investigating a broad spectrum of distance metrics as replacements for the Euclidean distance. We comprehensively evaluate distance-tailored harmonic losses on both vision backbones and large language models. Our analysis is framed around a three-way evaluation of model performance, interpretability, and sustainability. On vision tasks, cosine distances provide the most favorable trade-off, consistently improving accuracy while lowering carbon emissions, whereas Bray-Curtis and Mahalanobis further enhance interpretability at varying efficiency costs. On language models, cosine-based harmonic losses improve gradient and learning stability, strengthen representation structure, and reduce emissions relative to cross-entropy and Euclidean heads. Our code is available at: https://anonymous.4open.science/r/rethinking-harmonic-loss-5BAB/.
研究の動機と目的
- ユークリッド距離を越える調和損失の代替距離指標を動機づける。
- 調和損失フレームワークにおける多様な距離測度を体系的に評価する。
- ドメインを横断したモデル性能、表現の解釈性、エネルギー効率を評価する。
- 異なる距離の幾何学的影響と収束性に関する理論的洞察を提供する。
提案手法
- harmonic loss のユークリッド距離を、Manhattan、Chebyshev、Minkowski、cosine、Hamming、Canberra、Bray-Curtis、Mahalanobis を含む集合から選択された距離 d(·,·)に置換する。
- バックボーンと同時にクラスプロトタイプ(重みベクトル)を学習する、ドロップイン分類ヘッドを採用する。
- 統一された訓練プロトコルの下で、視覚タスク(MNIST、CIFAR-10/100、MarathiSignLanguage、TinyImageNet)と語学タスク OpenWebText(GPT/BERT/Qwen風デコーダー)を評価する。
- 3つの側面を分析する:モデル性能(精度/F1、パープレキシティ)、解釈性(PCA指標による埋め込み幾何)、持続可能性(訓練時間、GFLOPs、排出量)。
- 1-homogeneous な距離のスケール不変性と有限最小値、PAC-Bayes の一般化境界を示す理論的結果を提供する。

実験結果
リサーチクエスチョン
- RQ1RQ1: 非ユークリッドの調和損失はクロスエントロピーおよびユークリッド調和損失よりも高い精度や収束速度をもたらすか?
- RQ2RQ2: これらの損失はクロスエントロピーより解釈可能な表現を生み出すか?
- RQ3RQ3: 性能向上は計算コストの増大を伴うか、それとも同等以下のエネルギー消費で達成可能か?
- RQ4異なる距離の選択は学習プロトタイプと特徴空間の幾何にどのような影響を与えるか?
主な発見
- コサインベースの調和損失は、視覚タスク全体で最も信頼性の高い総合性能を提供し、精度は競争力があり、排出量は削減または中立となる場合が多い。
- Bray-CurtisとChebyshev距離は埋め込み構造を高め、90%分散説明に必要な次元数を削減することで解釈性を向上させる。
- Mahalanobis距離は表現の明確さを高めるが、計算コストが高く、複雑なデータでは最適化が安定しないことがある。
- 言語モデルではコサイン基準とMinkowski距離が勾配安定性と表現構造を改善し、持続可能性の観点でも有利な場合がある。
- 全体として非ユークリッド距離は精度、解釈性、持続可能性の三方良三者のトレードオフを提供し、コサイン距離が最適なバランスを示すことが多い。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。