
<3月号の目次>
◎ 企業にのしかかる「AIトークン」課金の衝撃
◎ AIトークンの「バルク買い」と知性の卸売ビジネス
◎ AIコマースの機能進化「OpenAIの挫折とWalmartの逆襲」(前編・後編)
◎【コラム】肩の上の秘書インコとAnthropicのTVCM
◎【コラム】MAD MANが読み解く日本発ニュースの現在地
企業にのしかかる「AIトークン」課金の衝撃
「SaaS is dead(SaaSの死)」という刺激的な言葉が、ここ最近リアリティを持って響き始めている。その震源地は、2025年11月に公開されたDwarkesh Podcastのインタビューにおける、Microsoftのサティア・ナデラCEOの予言にある。
「我々のビジネスは、現在のエンドユーザー向けツール事業から、エージェントが仕事をするためのインフラ事業へと本質的に変わる。per-user(人単位)の事業を考えるとき、それは単に「人」ではなく、per-agent(エージェント単位)である。」
「ナデラ氏は、エージェントの数は人間のユーザー数より遥かに速いスピードで増加すると述べた。アナリストの予測では、2028年までにその数は13億に達するという。
この宣言を裏付けるように、Microsoftは2026年3月、従来のE3/E5の上位ティアとなる「Microsoft 365 E7」(月額 約99ドル/ユーザー)を発表した。これはCopilotやAgent 365コントロールプレーン、高度なセキュリティを統合した、まさに「エージェント・ファースト」のエンタープライズライセンスである(図1参照)。
図1:Microsoft 365に統合されたAIエージェント・サービスの概要

出所)Microsoft(2026年3月6日発表資料)
言い換えれば、我々は「ユーザーID数=人のあたま数」という固定課金の時代から、エージェント単位のサブスクリプションを基盤としつつ、利用量に応じてコストが比例上昇する「トークン(Copilot Credits)」による従量課金を組み合わせた、ハイブリッド型の高コスト構造フェーズに移行したということだ。SaaSがこれまで謳歌してきた「あたま数×単価」の収益モデルは、その根本から揺らいでいる。もはや「人間のあたま数」は、生産性を測る尺度としても、コストの制約条件としても、その機能を失いつつある。
■Anthropic/Claudeが引き起こす「オーケストレーション」
Anthropic社のAI「Claude」の躍進が、末端ユーザーに与えている感動は無視できないレベルにある。2026年1月に「Claude Code」から派生した一般ユーザー向けの「Claude Cowork」が発表されたあたりから、業界は「アンソロピック・ショック」と呼ばれるほどに騒がしくなった。
これまでのAIは、いわば「気が利く図書館員」であり、質問に対して優秀な回答を返してくれる存在に過ぎなかった。しかし現在は、AI上に配置された専門エージェント群を、利用者がCEOやCOOのごとく指揮・統合する「オーケストレーション」の時代へと変化している。
かつては「経理はfreee」「CRMはSalesforce」「カスタマーサポートはZenDesk」と、特定のタスクごとに高額なSaaSを契約し、人間がその作法を必死に覚える必要があった。しかし今や、Claudeのような1本のAIサービスに、それらすべてを「丸投げ」できる環境が整いつつある。この「丸投げの快楽」を巡り、Anthropicだけではなく、OpenAIやMicrosoft、Googleなども熱狂的なスピードで進化を競い合っている。
図2:主要LLM(大規模言語モデル)における「100万トークン」あたりの従量課金比較

出所)Chat GPTによる試算に基づき筆者作成
■次なる課題「トークン経済」の台頭と「知性」の原材料化
AIが「早い・安い・すごい」と手放しで喜べるのは、実のところ現在が「お試しキャンペーン」という、いわば試験的な価格環境にあるからに過ぎない。企業がこれをオフィシャルな事業として稼働させるとなれば、そこには巨大な投資とコスト回収の論理が不可避だ。現在、AI企業各社が兆円単位で積み上げている先行投資は、いずれ我々ユーザーが負担すべきコストへと姿を変える。
AIの導入とは、知的な動作そのものを「コンピュート(計算資源)」を消費する従量制のユーティリティへと変質させる行為だ。それに伴い、知性を計測する新たな通貨である「トークン」を、経営の主要変数として考慮せねばならない(図2参照)。(参考:Anthropic/Claudeの場合のトークン単価例)
特に、日本語は漢字・ひらがな・カタカナ・記号が混在するため、英語に比べて多くのトークン数を消費しやすい(図3参照)。この「解析〜推論〜実行」というコンピュート工程は、今後、労務費と同様にP/L(損益計算書)を圧迫するコアコストへと膨れ上がる。そして、それを上回るサービスや商品価値を提供せねばならない。要するに、このトークンをいかに大量・安価に確保し、有効に利用できるかが、そのまま企業の競争力を左右する「原材料調達」の勝負になるのだ。
(参考:100万 tokens =日本語 約100万〜200万文字、原稿用紙400字/枚換算で約2500~5000枚)
図3:日本語におけるトークン消費量の算出事例

出所)Tokenizer(トークナイザー)による算出に基づき筆者作成
■“thinking(推論)”に潜む隠れた変動費
図2に示す通り、トークン単価は「入力」より「出力」の方が高く設定されている。ここには「thinking(データ集計から推論)」のコストが含まれており、思考を深くさせればさせるほど、経営側からは見えにくい「変動費」が膨らむ設計になっている。
また、出力には上限(Max output tokens)があり、これが回答の「濃さ」や「長さ」を制約する。現在の個人向けサービスにおいても、応答の大幅な遅延やエラー、あるいは「数時間後の再試行」を促す制限が散見される。これらは、システム上の上限設定や、物理的な電力供給能力の限界が直接的に影響した結果といえる。(参考:Anthropic/Claudeの場合「トークンの使用量が有料の月額利用制限に達した際の追加料金」例)
エンタープライズ用途では最高パフォーマンスを追いかけたい一方で、「なんでもかんでも無駄遣い」すればコストが急増しうるのも想像がつく。アクセルとブレーキのバランスを欠き、つい企業力の競争を重くみるあまりアクセル側の性能に寄せてしまうと、莫大なコスト増大に加え、セキュリティの脆弱性や倫理面のリスクも高まる。
図4:OpenAIの各モデル(GPT-5:青線・GPT-mini:黒・GPT-nano:赤)における推論ボリューム別コスト試算

出所)Chat GPTによる試算に基づき筆者作成
図4のシミュレーションを見れば一目瞭然だが、OpenAIの最上位モデル「GPT-5」と下位モデルでは、実行回数が増えるにつれて、課金額に絶望的なまでの開きが生じる。10万回の実行で、GPT-5は$75,000に達するのに対し、GPT-nanoはわずか$3,000だ。
■強靭な「鍋底」の上での生存戦略
この試算は、あくまで「文章推論」という比較的軽い側のお話だ。これが医療、金融、あるいは「命」に関わる重いデータ領域になれば、負荷はさらに大きくなる。そして、それは全社員・全エージェントが常時稼働する世界でのできごととなる。
実際に、MicrosoftのCopilot Studioでは、エージェント利用は「Copilot Credits」で計測される。生成応答・アクション・データ参照・ツール利用など機能ごとに課金され、1回の実行でもコストが積み上がる構造である。さらに推論モデルを用いる場合は追加課金が発生し、思考の深さそのものがコストに反映される。
懸念されるのは、フロントエンドにおける目にみえる営業側のトークンコストだけではない。業務上のプロンプト量が増大するにつれ、バックヤードでは監視・保守・セキュリティの最適化を並行して常時稼働する必要があり・・・
続きはMAD MANレポートVol.136(有料購読)にて
ご購読のお問い合わせは、本サイトのコンタクトフォームより、もしくは、info@bicp.jpまでお願いいたします。MAD MAN Monthly Reportの本編は有料(年間契約)となります。詳しくはこちらのページをご覧ください。