Inception Labs、Mercury 2を発表:拡散アーキテクチャにより世界最速の推論LLMが毎秒1,000トークン超を実現
Inception LabsはMercury 2をリリースしました。これは拡散ベースの推論型言語モデルで、NVIDIA Blackwell GPU上で毎秒1,000トークン以上を生成し、主要な自己回帰型競合よりも5倍以上高速です。従来の逐次デコーディングとは異なり、Mercury 2は並列トークン精練を用いてリアルタイムのレイテンシ予算内で推論レベルの品質を実現し、入力100万トークンあたりのコストは $0.25 です。
