AI推論の速度が17,000 tokens/secに到達。製造コスト20分の1、消費電力10分の1。「AIがいつでもどこでも使える」ユビキタスAI時代が、もう始まっています。
- 17,000 tokens/sec — Taalas HC1がLlama 3.1 8Bで達成。Cerebras(約2,000)の8.5倍、Groq(約600)の28倍
- コスト革命 — GPU推論と比較して製造コスト1/20、消費電力1/10。AI推論コストは年10倍のペースで下落中
- 推論市場が爆発 — 2025年の約1,060億ドルから2030年には2,550億ドルへ。NvidiaのGroq買収(200億ドル)が示す「推論こそ本命」
この記事を読むべき人:AI導入を検討中の経営者・CTO、推論コストに悩むエンジニア、半導体・AI投資を追うビジネスパーソン
今日やること → 自社のAI推論コストを棚卸しし、推論特化プロバイダーの評価を始めてください。「訓練から推論へ」のシフトに乗り遅れると、競合との差は加速度的に開きます。
2026年2月19日、テック業界で静かに、しかし決定的なニュースが駆け巡りました。
カナダ・トロントのスタートアップTaalasが、AIモデルをシリコンチップのトランジスタに直接焼き込む技術で、1ユーザーあたり17,000 tokens/secという推論速度を叩き出したんです。同社のブログ記事「The path to ubiquitous AI(ユビキタスAIへの道)」はHacker Newsで815ポイントを記録。テックコミュニティの注目を一気に集めました。
17,000 tokens/secがどれくらいかというと、人間が1分間に読める文章量を、わずか0.2秒で生成できるレベルです。GPT-4oやClaude Sonnetが通常30〜80 tokens/sec程度であることを考えると、文字通り桁が2つ違う。しかも製造コストはGPUベースの推論サーバーの20分の1、消費電力は10分の1。
この記事では、100社以上のAI研修・導入支援を行ってきた筆者が、Taalasの技術的ブレークスルーの意味、推論コスト革命の全体像、そして日本企業が今すぐとるべきアクションを徹底解説します。「ユビキタスAI」とは何か。なぜ今、推論速度が最重要イシューなのか。数字と根拠をもとに解き明かしていきます。
目次
何が起きたのか — 17,000 tokens/secの衝撃
Taalasとは何者か
まず「Taalas」という会社について整理しておきましょう。聞いたことがない方がほとんどだと思います。
Taalasは約2年半前にカナダ・トロントで設立されたAIチップスタートアップです。創業メンバー3人は全員、AI推論チップメーカーのTenstorrent(ジム・ケラー率いる半導体企業)の出身。これまでに3ラウンドで総額2億ドル(約300億円)以上を調達しています。直近の2026年2月には1億6,900万ドル(約253億円)の大型調達を発表しました。
注目すべきは、わずか24人のチームで、調達した2億ドルのうち3,000万ドルしか使わずに最初の製品を完成させたこと。「スペクタクル(派手さ)よりサブスタンス(実質)、スケールよりクラフト(職人技)」という同社のモットーがそのまま表れています。
「ハードワイヤード推論」という発想の転換
Taalasのアプローチは、AI推論の常識を根底から覆すものです。
通常のAI推論は以下の流れで動きます:
- GPUやTPUなどの汎用チップを用意する
- AIモデルの重み(パラメータ)をメモリから読み込む
- チップ上で計算を実行して結果を返す
ここで最大のボトルネックになるのが「2. メモリからの読み込み」です。いわゆるメモリウォール問題。どれだけ計算チップが速くても、データをメモリから引っ張ってくる速度に足を引っ張られる。現在のAI推論が高コスト・高電力になる最大の原因がこれです。
Taalasは、ここに真正面から斬り込みました。
AIモデルの重みを、チップのトランジスタに直接焼き込む。
共同創業者のバイチ氏いわく、「1つのトランジスタで4ビットを格納し、乗算まで実行できる」。メモリとコンピュートの境界そのものを消し去ったわけです。具体的には「マスクROMリコールファブリック」という独自技術をSRAMと組み合わせ、DRAM並みの密度でストレージと計算を統合しています。
HC1チップのスペック
Taalasの最初の製品「HC1」の仕様を見てみましょう。
| 項目 | HC1スペック |
|---|---|
| 製造プロセス | TSMC 6nm(N6) |
| ダイサイズ | 815mm²(レティクル限界に迫る) |
| トランジスタ数 | 530億個 |
| 対応パラメータ数 | 80億パラメータ/チップ(次世代で200億) |
| 消費電力 | 約200W/カード |
| サーバー構成 | HC1カード10枚 + デュアルソケットx86 = 計2,500W |
| 推論速度 | 17,000 tokens/sec(Llama 3.1 8B、1ユーザーあたり) |
消費電力200Wというのは、NvidiaのH100(700W)やH200の3分の1以下。サーバー全体で2,500Wは、GPU推論サーバー1台分にも満たない電力で、桁違いの速度を実現しているわけです。
競合との速度比較:文字通り「桁が違う」
では、推論速度で各社を横並びに比較してみましょう。対象モデルはすべてLlama 3.1 8Bです。
| プロバイダー | 推論速度(tokens/sec) | Taalas比 |
|---|---|---|
| Taalas HC1 | 17,000 | 1.0x(基準) |
| Cerebras CS-3 | 約2,000 | 8.5x遅い |
| SambaNova SN40L | 約1,084 | 15.7x遅い |
| Groq LPU | 約750 | 22.7x遅い |
| Nvidia H200(バッチなし) | 約200-400 | 40-85x遅い |
| GPT-4o / Claude Sonnet(API経由) | 約30-80 | 200-570x遅い |
Cerebrasですら8.5倍遅い。GPT-4oのAPI経由と比較すると200倍以上の差がある。これは単なる「速い」ではなく、AIの使い方そのものが変わるレベルの速度差です。
「2ヶ月でモデルをシリコンに変換」のインパクト
ハードワイヤード方式の最大の弱点は「モデルを変えるたびにチップを作り直す必要がある」こと。普通なら「それは非現実的」と片付けられるところですが、Taalasは未知のモデルを受け取ってから2ヶ月でチップ化できると主張しています。
具体的には、モデルのアーキテクチャが変わっても金属層2枚の変更だけで対応可能。チップ全体を再設計する必要はない。しかもそのカスタマイズコストは「モデルの訓練コストの約100分の1」だとか。GPT-4クラスの訓練に1億ドルかかるなら、チップ化は100万ドル程度ということです。
ロードマップ
Taalasは2026年内に以下のリリースを予定しています:
- 2026年春:中規模推論LLM(HC1プラットフォーム)
- 2026年冬:フロンティアLLM(HC2プラットフォーム、より高密度)
現在の8Bパラメータから、次世代HC2で数百億〜数千億パラメータのモデルにも対応する計画。兆パラメータ級のモデルでも「数十チップ」で対応可能とのことです。
なぜこれが重要なのか — 「推論速度」がAIの未来を決める理由
AI産業の重心が「訓練」から「推論」へ移動している
ここ2年ほど、AI業界では「GPT-5はいつ出る?」「次のモデルの訓練にいくらかかる?」といった訓練(トレーニング)側の話題が中心でした。でも2026年に入って、業界の重心は明確に推論(インファレンス)側にシフトしています。
データで見ると一目瞭然です:
- 2023年:全AIコンピュートのうち推論が占める割合は3分の1
- 2025年:2分の1に拡大
- 2026年(予測):3分の2に到達
Deloitteのレポートによれば、推論最適化チップの市場は2026年に500億ドル(約7.5兆円)超に成長する見込み。Gartnerも「2026年には推論ワークロードへの支出が訓練ワークロードを追い抜く」と予測しています(推論向け206億ドル vs 訓練向け92億ドル)。
なぜか? 理由はシンプルです。モデルは一度訓練すれば終わりだけど、推論は使うたびに発生するからです。ChatGPTを10億人が毎日使えば、それだけの推論コストが毎日かかる。AIが普及すればするほど、推論コストの重みは指数関数的に増大する。
NvidiaがGroqを200億ドルで買収した意味
この「推論シフト」を象徴する出来事が、2025年12月24日にNvidiaが発表したGroqの資産取得(200億ドル、約3兆円)です。Nvidia史上最大の取引でした。
Groqは推論特化チップ「LPU(Language Processing Unit)」で知られるスタートアップ。創業者のジョナサン・ロスはGoogleのTPU(Tensor Processing Unit)の原設計者です。ロス氏を含むGroqのエンジニアの約80%がNvidiaに合流し、新設の「リアルタイム推論部門」を率いることになりました。
この取引が示しているのは明確です:GPUの王者Nvidiaですら、自社のGPUだけでは推論市場を制覇できないと認識している。汎用GPUでは到達できない低レイテンシ・高効率の推論需要があり、それを獲りにいった。
推論コスト:年10倍のペースで下落中
推論コストの下落ペースは、PC革命やドットコムバブル期のコスト下落をも上回っています。
a16z(Andreessen Horowitz)が「LLMflation」と名付けたこの現象を数字で見てみましょう:
| 時期 | GPT-4相当の推論コスト(100万トークンあたり) |
|---|---|
| 2022年末(GPT-4登場時) | $20 |
| 2024年中頃 | $2 |
| 2025年末 | $0.40 |
| 2026年(予測) | $0.10以下 |
わずか4年で200分の1。Epoch AIの分析では、LLM推論コストの中央値は年50倍のペースで下落しており、2024年以降はさらに加速して年200倍に達するケースもあるとのこと。
ARK Investがライトの法則(Wright’s Law:累積生産量が2倍になるごとにコストが一定割合で下がる法則)をAIアクセラレーターに適用した分析では、累積生産量が倍になるごとに37.5%のコスト低下が確認されています。これは半導体のムーアの法則をはるかに上回るペースです。
「ユビキタスAI」とは何か
Taalasの記事タイトル「The path to ubiquitous AI」にある「ユビキタスAI」という概念を、もう少し掘り下げましょう。
「ユビキタス(ubiquitous)」とは「いつでも、どこでも、誰でも使える」という意味。1990年代にマーク・ワイザーが提唱した「ユビキタスコンピューティング」のAI版です。コンピューターが部屋一つを占めるENIACから、ポケットに入るスマートフォンに進化したように、AIも巨大データセンターの専有物から、あらゆる場所に偏在する存在へと変わる——これがTaalasのビジョンです。
ユビキタスAIが実現するとどうなるか。具体的に考えてみます:
- リアルタイム音声AI:17,000 tokens/secなら、人間の会話速度(約3 tokens/sec)の5,600倍。完全にリアルタイムの同時通訳、カスタマーサポート、音声アシスタントが実現する
- エッジ推論の爆発:低消費電力(200W)なら、工場のライン、自動運転車、医療機器など、クラウドに繋げない現場にAIを直接埋め込める
- AIエージェントの大量並列稼働:1つのサーバーで数百のAIエージェントが同時に推論を実行。「AIが人間の1,000倍の速度で仕事する」世界が物理的に可能になる
- 中小企業へのAI普及:コストが100分の1になれば、月額数千円でAI推論を回せる。「AIは大企業のもの」という壁が消える
Speculative Decodingの「キラーアプリ」化
Hacker Newsの議論で多くのエンジニアが指摘したのが、Speculative Decoding(投機的デコーディング)への応用です。
これは、小さくて高速なモデルが「下書き」を大量生成し、大きくて賢いモデルがそれを「検証・採用」する手法。17,000 tokens/secの小型モデルを「下書き係」にすれば、GPT-5級の大型モデルの実効速度を数倍〜10倍に加速できる可能性があります。
つまりTaalasの技術は、8Bの小型モデルだけでなく、フロンティアモデル全体の高速化にも波及しうる。これが「ユビキタスAI」の本当のインパクトです。
賛否両論 — ユビキタスAIへの楽観論と懐疑論
テック業界は「17,000 tokens/sec」に湧きましたが、冷静に賛否両面を見ておく必要があります。Hacker Newsの議論や業界アナリストの分析を踏まえて整理しましょう。
楽観論:推論コスト革命でAI普及が加速する
1. コスト障壁の消滅がAI民主化を実現する
推論コストが1/100になれば、これまで「コストに見合わない」とされてきたAI活用が一気に可能になります。個人事業主がAIエージェントを24時間稼働させる、町工場が品質検査AIを導入する、地方自治体がAIコンシェルジュを運営する——すべて採算が合うようになる。
2. リアルタイムAIが新しいUXを生む
17,000 tokens/secの速度なら、AIの応答を「待つ」体験がなくなります。チャットボットが人間以上の速度で応答し、コード生成が打鍵速度を超え、音声AIがリアルタイムに会話する。遅延のないAIは、遅延のあるAIとは根本的に異なるプロダクトになり得ます。
3. エネルギー効率改善がサステナビリティに貢献
消費電力1/10は、AI業界が直面する環境問題への強力な回答。IEA(国際エネルギー機関)は2026年にAIデータセンターの電力消費が世界の電力需要の3-4%に達すると予測していますが、ハードワイヤード推論が普及すれば、同じ推論量を10分の1の電力で処理できます。
4. 半導体産業の新たな競争軸が生まれる
NvidiaのGPU一強だった推論市場に、Taalas、Cerebras、SambaNova、そしてNvidiaに合流したGroqと、多様なアーキテクチャが競い合う時代が到来。競争は価格低下とイノベーション加速の最大の原動力です。
懐疑論:「ハードワイヤード推論」は持続可能か
1. モデルのロックイン問題
最大の懸念は「モデルを変えるたびにチップを作り直す必要がある」点です。AI業界では毎月のように新しいモデルがリリースされている。Hacker News上でも「1つのモデル専用のハードウェアは、モデルが陳腐化した瞬間にゴミになる」という厳しい指摘がありました。Taalasは「2ヶ月で新モデルに対応」と主張していますが、最先端プロセスでの2ヶ月ターンアラウンドは「相当に野心的」と半導体業界の経験者は懐疑的です。
2. 8Bモデルの限界
現時点のデモはLlama 3.1 8B、つまり2年前の8Bパラメータモデルです。確かに速いけれど、GPT-4oやClaude Sonnetのような大型モデルとは「そもそも賢さのレベルが違う」。Hacker Newsのユーザーが実際に試したところ、「速度は凄いが精度には限界がある」という報告もありました。速度と知性のトレードオフは現時点では明確に存在します。
3. 独立検証がまだない
17,000 tokens/secは自社発表の数値で、第三者による独立検証はまだ公開されていません。EE Timesなど技術メディアは「実環境での検証待ち」としており、本番環境でこの数値が再現できるかは未確認。
4. 兆パラメータモデルへのスケーラビリティ
1チップ80億パラメータは、現在のフロンティアモデル(数千億〜数兆パラメータ)に対しては不足。「数十チップで対応可能」とのことですが、チップ間通信のオーバーヘッドで速度優位が削がれる可能性は否定できません。
5. ビジネスモデルの持続性
モデルごとに専用チップを製造するビジネスモデルが、モデル更新の速い現在のAI業界で持続可能なのか。需要予測の難しさ、在庫リスク、製造リードタイムなど、半導体ビジネス特有の課題が山積しています。
バランスの取れた評価
筆者の見解を率直に述べると、Taalasの技術は「推論の未来」の一つの姿を示しているが、それ単独でユビキタスAIを実現するわけではない、というのが妥当な評価です。
重要なのはTaalas個社の成否ではなく、推論コスト下落という大きな潮流そのもの。Taalas、Cerebras、SambaNova、NvidiaのGroq統合、そしてソフトウェア最適化(量子化、プルーニング、Speculative Decodingなど)が組み合わさって、推論コストは確実に下がり続ける。その先に「ユビキタスAI」がある。
日本企業への影響 — 推論コスト革命が変える国内AI市場
日本のAI導入を阻む「コスト壁」が崩壊する
筆者がAI研修・導入支援で100社以上の日本企業と対話してきた中で、AI導入を見送る理由のトップ3は常にこうでした:
- 「AI人材がいない」
- 「導入コストが見合わない」
- 「セキュリティが心配」
この「2. コスト」の壁が、推論コスト革命で根本から崩れようとしています。
具体例を挙げます。現在、GPT-4oのAPIを使って社内問い合わせチャットボットを運用すると、月間10万件の問い合わせで月額約30〜50万円のAPI費用がかかります。これが2026年末〜2027年には月額3,000〜5,000円になる可能性がある。
月5,000円なら、社員10人の町工場でも導入できる。地方の中小企業でも、個人クリニックでも、学習塾でも。「AIはうちの規模には早い」という言い訳が通用しなくなる時代が来るということです。
API価格競争の現在地
主要AIプロバイダーの現在の価格体系を整理しておきましょう。
| モデル | 入力コスト(/100万トークン) | 出力コスト(/100万トークン) | 備考 |
|---|---|---|---|
| GPT-4o Mini | $0.15 | $0.60 | GPT-4相当の品質で93%安い |
| Claude Haiku 3.5 | $0.80 | $4.00 | 高速・高品質の軽量モデル |
| Gemini 2.0 Flash | $0.10 | $0.40 | Googleの最安モデル |
| DeepSeek V3 | $0.14 | $0.28 | 中国発オープンソース |
| Claude Opus 4.6 | $5.00 | $25.00 | 最高性能(67%値下げ済み) |
| GPT-5.2 | $5.00 | $15.00 | OpenAI最新フラッグシップ |
注目すべきは軽量モデルの価格帯。100万トークンあたり0.1〜0.6ドル。これはすでに「ほぼ無料」に近い水準です。フラッグシップモデルですら、1年前の1/5〜1/10。推論チップの進化が加われば、さらに1桁下がるのは時間の問題です。
製造業・物流・医療への波及
推論コストの劇的な低下は、特に以下の産業で大きなインパクトを持ちます:
製造業:エッジAIによるリアルタイム品質検査。カメラ画像をAIが毎秒数千フレーム分析し、不良品を即座に検出。推論コストが1/100になれば、「全数検査をAIで」が経済的に可能になります。
物流:配送ルート最適化、在庫予測、需要予測。リアルタイム推論が可能になれば、刻々と変わる交通状況や天候を反映した動的最適化が実現します。
医療:画像診断AI、電子カルテの自動要約、薬物相互作用チェック。推論の低レイテンシ化で、診療中のリアルタイム支援が可能に。コスト低下で診療所レベルでも導入可能になります。
AI導入戦略全般については、当社の「AI導入戦略ガイド」も合わせてご参照ください。業界別のROI試算や導入ステップを詳しく解説しています。
日本の半導体戦略への示唆
Taalasのアプローチは、日本の半導体復興策にも示唆を与えます。
Rapidus(ラピダス)がTSMCとの提携で最先端プロセスの国内生産を目指していますが、Taalasのようなモデル特化チップ(ASIC)のアプローチは必ずしも最先端プロセスを必要としないのがポイントです。HC1はTSMC 6nm、つまり2世代前のプロセス。日本国内の既存ファブでも製造可能な領域です。
「最先端を追いかける」だけでなく、「既存プロセスで勝てるアーキテクチャを開発する」という選択肢が生まれている。日本の半導体産業が見落としてはならない視点です。
企業がとるべきアクション — Uravationからの提言
100社以上のAI導入支援の現場経験を踏まえ、日本企業が今すぐ着手すべきアクションを5つ提言します。
アクション1:自社のAI推論コストを「可視化」する
具体的にやること:
- 現在利用しているAI APIの月額コストを棚卸しする
- 利用量(トークン数)を部門別・用途別に分解する
- 「推論コストが1/10になったら何ができるか」をリスト化する
なぜ今か:推論コストは年10倍のペースで下落しています。「今は高い」で止まっていると、コストが下がった時に「何に使うか」が決まっていない状態になる。先に計画を立てておけば、価格が閾値を下回った瞬間に動ける。
アクション2:推論特化プロバイダーを「評価」する
具体的にやること:
- Groq、Cerebras、SambaNovaのAPI/クラウドサービスを試用する
- 自社のユースケースで速度・コスト・精度を比較検証する
- OpenAI/Anthropicだけでなく、推論特化プロバイダーへの分散を検討する
なぜ今か:NvidiaがGroqを200億ドルで買収したことが示すように、推論市場は急速に再編されている。2026年後半〜2027年にかけて、新しいプロバイダーやサービスが次々と登場する。今のうちに知見を蓄えておくことが、来年以降の競争力に直結します。
アクション3:「軽量モデル + 高速推論」のアーキテクチャを採用する
具体的にやること:
- すべてのタスクにGPT-4o / Claudeフラッグシップを使うのをやめる
- タスクの難易度に応じてモデルを使い分ける「モデルルーティング」を導入する
- 簡単なタスク(分類、要約、テンプレート生成)は軽量モデル(GPT-4o Mini、Gemini Flash、DeepSeek V3)に振る
- 複雑なタスク(推論、コード生成、分析)のみフラッグシップを使う
なぜ今か:多くの企業が「とりあえず一番賢いモデルを全部に使う」状態。Taalasが示したように、8Bモデルでも多くのタスクは十分にこなせる。モデルルーティングだけでAIコストを50〜80%削減できるケースは珍しくありません。
アクション4:エッジAI・オンプレミス推論の検討を始める
具体的にやること:
- セキュリティ要件の高いデータ(個人情報、医療データ、機密情報)の処理にオンプレミス推論を検討する
- Ollamaなどのローカル推論環境を社内でPoC(概念実証)する
- 推論チップの進化により、2026年後半にはデスクトップPC1台でGPT-4級の推論が可能になる見込み — そのための準備を始める
なぜ今か:エッジ推論のコストが急速に下がっています。IDCはAIエッジコンピューティングへの支出が2028年に3,780億ドルに達すると予測。「データを外に出せない」は多くの日本企業のAI導入障壁ですが、推論チップの進化でその壁は消えつつある。
アクション5:「AI前提」の業務設計を始める
具体的にやること:
- 「AIのコストが事実上ゼロになったら、業務はどう変わるか」を経営チームで議論する
- 既存業務の「AI化可能性マトリクス」を作成する
- 3年後のAIコスト(現在の1/100以下)を前提にしたビジネスモデルを設計する
- AI研修を全社員に実施し、AIリテラシーの底上げを図る
なぜ今か:推論コストの下落は止まりません。3年後にはAIの利用コストが事実上ゼロに近づく世界が来る。その時、「AIを前提とした業務設計」ができている企業と、できていない企業の差は決定的になる。今から設計を始めないと間に合いません。
まとめ — 「推論ファースト」時代の生存戦略
最後にこの記事のポイントを整理します。
ファクト:
- Taalas HC1が17,000 tokens/secを達成。既存の推論特化チップ(Cerebras、Groq)の8〜28倍の速度
- 製造コスト1/20、消費電力1/10。AIモデルをシリコンに直接焼き込む「ハードワイヤード推論」
- NvidiaがGroqを200億ドルで買収。推論市場の再編が加速中
- AI推論コストは年10〜50倍のペースで下落。GPT-4相当の推論が2022年の200分の1に
意味:
- 推論コストの劇的な低下により、「ユビキタスAI」——いつでもどこでも誰でもAIを使える時代——が現実化しつつある
- AI産業の重心が「訓練」から「推論」に移行。2026年には推論が全AIコンピュートの2/3を占める
- 日本企業のAI導入を阻んでいた「コスト壁」が崩壊する。中小企業でも月額数千円でAI活用が可能に
注意点:
- Taalasのハードワイヤード方式にはモデルロックイン、スケーラビリティ、独立検証未了という課題がある
- 17,000 tokens/secは8Bパラメータの小型モデルでの数値。フロンティアモデルとは「賢さ」の次元が異なる
- 推論コスト低下の恩恵を最大化するには、モデルルーティングやアーキテクチャ設計の見直しが必要
Taalasの創業者たちは、かつて部屋一つを占めたENIACがポケットに入るまでの進化を引き合いに出しました。あの歴史を見れば、AI推論が「巨大データセンターの専有物」から「どこにでも偏在するインフラ」へと変わるのは、もはや「もし」ではなく「いつ」の問題です。
そして「いつ」は、多くの人が思っているよりずっと早い。年10倍の下落ペースが示す通り、2〜3年後にはAI推論は事実上「タダ」に近づく。
その時、あなたの会社は何にAIを使いますか? その問いに、今から答えを用意しておくこと。それが「推論ファースト」時代の生存戦略です。
参考・出典
- Taalas, “The path to ubiquitous AI,” taalas.com, 2026年2月
- Next Platform, “Taalas Etches AI Models Onto Transistors To Rocket Boost Inference,” 2026年2月19日
- Hacker News, “The path to ubiquitous AI (17k tokens/sec),” 815ポイント, 2026年2月
- CNBC, “Nvidia buying AI chip startup Groq’s assets for about $20 billion,” 2025年12月24日
- a16z (Andreessen Horowitz), “Welcome to LLMflation – LLM inference cost is going down fast,” 2025年
- Epoch AI, “LLM inference prices have fallen rapidly but unequally across tasks,” 2025年
- ARK Invest, “Applying Wright’s Law To AI Accelerators,” 2025年
- Deloitte, “Why AI’s next phase will likely demand more computational power, not less,” TMT Predictions 2026
- Simon Willison, “Taalas serves Llama 3.1 8B at 17000 tokens/second,” 2026年2月20日
- EE Times, “Taalas Specializes to Extremes for Extraordinary Token Speed,” 2026年2月
- Silicon Republic, “Canadian start-up chipmaker Taalas raises $169m,” 2026年2月
- kaitchup, “Taalas HC1: Absurdly Fast, Per-User Inference at 17,000 tokens/second,” Substack, 2026年2月

