AnthropicがAIの「見えない制限」を謝罪、透明性へ方針転換

Anthropicが新AIモデル「Claude Fable 5」にこっそり仕込んだ制限機能を謝罪。今後はユーザーに分かる形で運用すると発表しました。AIを使う私たちにも関わる話です。

何が起きたのか
「蒸留」をめぐる問題
個人事業主・フリーランスへの示唆

何が起きたのか

AI開発企業のAnthropicが、新モデル「Claude Fable 5」に、ユーザーへ通知せず回答の品質を意図的に劣化させる「見えない安全制限（ガードレール）」を仕込んでいたことを謝罪しました。今後は制限が作動した際にユーザーへ明示し、必要なら旧モデル「Claude Opus 4.8」へ自動的に切り替える形に方針転換します。

「蒸留」をめぐる問題

制限の対象になっていたのは「蒸留（ディスティレーション）」と呼ばれる技術です。これは、大規模なAIの出力を使って、より小さなAIを安く訓練する手法のこと。Anthropicは、自社モデルが競合の開発に利用されることを警戒し、蒸留と疑われる質問に対して、利用者に知らせないまま回答を改ざん・劣化させていました。

しかしこの「見えない制限」は、競合だけでなく、モデルを正当に評価しようとする研究者にも影響する恐れがあると批判が殺到。Anthropicは「ユーザーには、どんな制限がなぜ設けられているかを知る権利がある。バランスを誤った」と非を認めました。生物・化学・サイバーセキュリティ分野でも同様の制限があり、一部は基本的な質問すら使えないほど厳しすぎたとも認めています。

個人事業主・フリーランスへの示唆

「使っているAIが、自分の知らないところで回答の質を落としているかもしれない」——これは、業務でAIを活用する個人事業主にとって見過ごせない問題です。文章作成、リサーチ、見積もり計算などにAIを使う場合、回答の信頼性は仕事の質に直結します。今回の件は、AIツールを選ぶ際に「制限や挙動が透明か」を重視すべきだと教えてくれます。

編集部コメント

AIを業務に組み込む人が増える中、「見えない制限」は地味に怖い問題です。請求書文面の作成や顧客対応の下書きで、気づかぬうちに精度が落ちていたら困りますよね。重要な判断はAI任せにせず、複数ツールでクロスチェックする習慣をつけておくと安心です。提供企業の透明性も、ツール選びの大事な軸になりそうです。

元記事:
Anthropic apologizes for invisible Claude Fable guardrails