Huawei openPangu 2.0 正式オープンソース: 505B MoE、512K コンテキスト、Ascend 全链路公開
2026年6月30日、Huawei は HDC 2026 の約束を果たし、openPangu-2.0-Flash のモデル重み、基本推論コード、訓推オペレータを GitCode Ascend Tribe で公開しました。これはNVIDIA 以外のハードウェアで最先端規模の訓練を完了した初のオープンソース大規模言語モデルであり、全链路オープンソースを計画する数少ない超大型 MoE モデルの一つです。
本記事は、オープンソース盤古 2.0の評価、国産化選定、Ascend 環境へのデプロイを検討する開発者と意思決定者向けです。① HDC 2026 から下半期までのタイムラインと7大コンポーネント、② Pro/Flash 双版本パラメータと DeepSeek・Qwen・Kimi 等の競合比較、③ mHC、Muon、ModAttn、DSA+SWA 等のアーキテクチャ解説、④ ModelArts API と GitCode 自前デプロイの6ステップ実装リスト、⑤ 引用可能な数値データ、ハードウェア要件、オープンソースロードマップを整理します。独立第三者ベンチマーク公開後は継続更新します(文末の免責事項参照)。
01 openPangu 2.0 は何がオープンソースになったのか?タイムラインと7大コンポーネント
2026年6月12日、Huawei Developer Conference HDC 2026 が東莞松山湖で開催され、余承東の基調講演で openPangu 2.0 が正式発表されました。1週間後、Flash 版の重みと推論スタックがオープンソースコミュニティに公開され、2021年の第1世代盤古以来、Huawei にとって最も重要なオープンソースアップグレードとなりました。
- 痛点1:多くの OSS モデルは重みのみ。推論は可能ですが訓練プロセスを再現できず、学術研究と企業の二次事前学習が制限されます。
- 痛点2:最先端モデルはほぼ NVIDIA 依存。国産化プロジェクトで A100/H100 を調達できない場合、選択肢が極めて限られます。
- 痛点3:128K 上限が長文シーンを阻害。契約書、コードベース、超長対話履歴にはより大きなコンテキストが必要です。
- 痛点4:MoE の訓推不一致。訓練と推論の分布ドリフトは MoE の古典的課題であり、本番安定性に直結します。
オープンソースタイムライン
| 日時 | イベント |
|---|---|
| 2026-06-12 | HDC 2026 余承東基調講演で openPangu 2.0 正式発表 |
| 2026-06-30 | Flash モデル重み・基本推論コード・訓推オペレータを GitCode に公開 |
| 2026-07(計画) | Pro モデル重みと推論コード公開 |
| 2026 下半期(計画) | 事前学習コード、後学習コード、訓練オペレータ等を順次公開 |
7大オープンソースコンポーネント
- モデル構造(アーキテクチャ定義)
- モデル重み(Flash 版 6/30 公開済、Pro 版 7月公開予定)
- 技術レポート(重みと同期公開)
- 推論コード(基本推論コード + 訓推オペレータ)
- 事前学習コード(下半期公開予定)
- 後学習コード(SFT/RLHF 対応、下半期公開予定)
- 訓練オペレータ(Ascend 高性能カスタムオペレータ、下半期公開予定)
最初の4項目は業界標準です。後3項目(事前/後学習コード + オペレータ)は超大型 MoE では極めて稀であり、真の意味での全链路オープンソースを実現します。
02 openPangu 2.0 Pro vs Flash パラメータ比較、DeepSeek・Qwen との選定
双版本コアパラメータ
| 指標 | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| 総パラメータ数 | 505B | 92B |
| 活性化パラメータ数 | 18B | 6B |
| スパース比 | ~28:1 | ~15:1 |
| コンテキストウィンドウ | 512K | 512K |
| 利用可能状態 | 2026年7月(計画) | 2026-06-30 公開済 |
Flash 版:92B 総パラメータ、6B のみ活性化、推論コストが極めて低い。スパース比約 15:1 で、6B 密モデルに近い速度で 92B の知識プールを活用できます。Ascend 910B 単卡推論が可能で、約 96GB 統一メモリシステムでもコミュニティ評価が進んでいます。
Pro 版:505B 総パラメータ、18B 活性化、長文処理能力が非常に強い。512K コンテキストは『三体』第1部約8冊分のテキスト量に相当します。
主要競合横断比較
| モデル | 総パラメータ | 活性化パラメータ | コンテキスト | 訓練 HW | OSS 程度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | 全链路(7コンポーネント) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | 全链路(7コンポーネント) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 重み+推論 |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | 重み+推論+一部訓練 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 重み+推論 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 重み+推論 |
能力マトリクス評価
| 能力次元 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| コード生成 | 中 | 最高 | 高 | 高 |
| 複雑推論 | 中 | 最高 | 最高 | 高 |
| ツール呼出/Agent | 高 | 高 | 高 | 最高 |
| 超長コンテキスト | 最高 | 中 | 中 | 高 |
| 推論効率 | 最高 | 低 | 低 | 高 |
| 自主可控(国産化) | 最高 | 低 | 低 | 低 |
| 全链路 OSS | 最高 | 中 | 中 | 中 |
03 openPangu 2.0 の技術アーキテクチャ:mHC、Muon、Ascend 全栈解説
openPangu 2.0 は MoE(混合エキスパート)アーキテクチャを採用し、NVIDIA 以外のハードウェアで全規模訓練を完了した初の最先端大規模言語モデルです。Huawei Ascend 910B NPU のみを使用し、A100 や H100 は一切使用していません。
- mHC(Multi-Head Combinatorial)ルーティング:エキスパートルーティング効率を改善し、負荷不均衡を低減します。
- Muon オプティマイザ:Microsoft 提案の2次モーメンタム最適化で、大規模訓練の安定性を向上します。
- ModAttn(Modular Attention):モジュラー Attention で 512K 超長コンテキストに対応します。
- DSA+SWA 超スパース Attention(Flash 版限定):極限スパース比を実現し、推論算力要件を大幅に削減します。
ハードウェア適合と訓練ブレークスルー
- 推論最適化:Ascend 親和アーキテクチャで、単卡スループットは業界主流 OSS モデルの 2倍。
- エッジ適合:ネイティブ 30B エッジモデル、推論 50% 高速化、メモリ 20% 削減、麒麟 SoC スマートフォンオフライン実行対応。
- 推論レイテンシ:同クラスモデル比 1.2倍 優位。
- ハイパーノード訓練効率:+30% 向上。
- 長シーケンス訓練:512K 長シーケンス訓練スループット +50%。
- 訓推一致性:訓練/推論分布一致率 >99%(MoE における重要指標)。
- 量子化版:Flash-Int8 公開済、W4A8 量子化でメモリ 40% 削減。
開発者エコシステム
- ソフトウェアスタック:CANN(Huawei 自研、CUDA 相当)+
torch_npu(PyTorch アダプタ)。 - フレームワーク互換:PyTorch 標準コードをサポート、
import torch_npuで Ascend バックエンドに切替可能。 - デプロイプラットフォーム:クラウド Huawei Cloud ModelArts(API 直調)、OSS GitCode Ascend Tribe 自前デプロイ、エッジ HarmonyOS ネイティブ統合。
04 openPangu 2.0 の使い方:ModelArts API と GitCode 自前デプロイ6ステップ
方案1:Huawei Cloud ModelArts API(最も簡単)
- Huawei Cloud アカウント登録:huaweicloud.com で登録します。
- ModelArts にアクセス:コンソール → ModelArts → AI Gallery。
- 検索・購読:「openPangu 2.0」を検索し、Flash または Pro を購読します。
- Endpoint 取得:購読後、API Endpoint と認証 Token を取得します。
- リクエスト構築:標準 Chat Completions 形式で JSON リクエストを送信します。
- レスポンス検証:返却内容を確認後、本番 Agent パイプラインに接続します。
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [
{"role": "user", "content": "こんにちは、自己紹介してください"}
],
"max_tokens": 1024,
"temperature": 0.7
}'
方案2:GitCode ダウンロード自前デプロイ
リポジトリ:gitcode.com/org/ascend-tribe。主要リポジトリ:openPangu-2.0-Flash、openPangu-2.0-Flash-Int8、openPangu-2.0-Infer、openPangu-2.0-Op。
python inference.py \
--model_path ./openPangu-Flash \
--device npu:0 \
--context_length 512000 \
--precision bf16
python distributed_inference.py \
--model_path ./openPangu-Pro \
--num_devices 8 \
--context_length 512000
python finetune.py \
--model_path ./openPangu-Pro \
--data_path ./domain_data \
--output_dir ./fine_tuned_model \
--method lora \
--lora_rank 16
方案3:PyTorch + torch_npu
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(
input_ids.to("npu:0"),
max_new_tokens=512,
temperature=0.7
)
05 openPangu 2.0 推論に必要なメモリは?数値データとハードウェア要件
| バージョン | 推奨 HW | 最低構成 | 備考 |
|---|---|---|---|
| Flash(6B 活性化) | 単卡 Ascend 910B | ~96GB 統一メモリ | 大メモリシステムでコミュニティテスト可 |
| Flash-Int8 | 単卡 Ascend Atlas A2 | ~48GB VRAM | W4A8 量子化、精度損失 <10% |
| Pro(18B 活性化) | 4+ 卡 Ascend 910B | 多卡クラスタ | 7月重み公開後に検証可能 |
- 総パラメータ Pro/Flash:505B / 92B、活性化 18B / 6B、スパース比約 28:1 / 15:1。
- コンテキストウィンドウ:両版本 512K tokens、現行 OSS モデル最長クラス。
- Ascend 単卡スループット:業界主流 OSS モデル Ascend 上の 2倍。
- 訓推一致率:>99%、MoE ドリフト問題を大幅に改善。
- Flash-Int8 量子化:メモリ 40% 削減、精度損失 <10%。
- エッジ Embedded:30B エッジモデル、推論 50% 高速化、メモリ 20% 削減。
06 openPangu 2.0 は誰向けか?選定判断と戦略的意義
シーン別選定早見表
| シーン | 推奨 | 理由 |
|---|---|---|
| コード生成 / 複雑推論 | DeepSeek V4 Pro | ~200B 活性化、性能リード |
| Agent / マルチツール協調 | Kimi K2.7 | MCP エコシステム最充実 |
| 超長文書(>256K Token) | openPangu 2.0 Pro | 512K コンテキスト第一選択 |
| 国産化 / 信創コンプライアンス | openPangu 2.0 | 純国産 HW 訓練の唯一の最先端モデル |
| Ascend / Huawei Cloud デプロイ | openPangu 2.0 | ネイティブ最適化、スループット 2x |
| エッジ / スマートフォン | openPangu Embedded | 30B エッジ、麒麟 SoC オフライン |
| 低コストローカル推論 | openPangu 2.0 Flash | 6B 活性化、~96GB で実行可 |
戦略的意義
- 地政学:米国の先端 AI チップ規制下でも、NVIDIA なしで最先端規模訓練が可能であることを実証しました。
- 全链路 OSS 価値:学術研究で訓練プロセス完全再現、企業の垂直ドメイン二次事前学習、Ascend 算力利用障壁の低減。
- HarmonyOS Agent 基盤:HarmonyOS 7 が Agent 時代に突入、openPangu 2.0 はネイティブ AI エンジン。鸿蒙 Agent フレームワーク 2.0 の複雑タスク成功率 >90%。
余承東は HDC 2026 で次のように述べました:「私の辞書に第二はない。第一のみ。中国一から世界一へ。」
07 openPangu 2.0 オープンソースロードマップと openPangu License
オープンソースロードマップ
- 2026-06-30:Flash 重み + 推論コード + 訓推オペレータ(公開済)
- 2026-07:Pro 重み + 推論コード(計画中)
- 2026 下半期:事前学習コード、後学習コード、追加オペレータ、データ処理ツール
最新進捗:GitCode Ascend Tribe、HDC 2026 公式、Huawei Cloud ModelArts。
openPangu License 要点
- 商用利用可(Commercial Use Permitted)
- ロイヤリティフリー(Royalty-free)
- 非独占(Non-exclusive)
- 利用規約遵守(GitCode リポジトリの条項に従う)
免責事項:本記事の一部ベンチマークと能力評価はアーキテクチャに基づく推定分析です。独立第三者テスト結果公開後に更新します。公開日:2026年7月1日。
08 まとめ:openPangu 2.0 の独自価値と JEXCLOUD
openPangu 2.0 は現時点で総合能力最強の OSS LLM ではありません。コード生成と複雑推論では DeepSeek V4 Pro が優位です。しかし以下の次元では代替が困難です:
- 512K 超長コンテキスト——現行 OSS モデル最高クラス
- 国産化 / 自主可控——NVIDIA 非依存訓練の唯一の最先端モデル
- Ascend ネイティブ最適化——Ascend 環境で他モデル比 2倍性能
- 全链路 OSS——事前/後学習コード含む、業界極めて稀
- エッジ適合——麒麟 SoC スマートフォンローカル実行
Ascend または Huawei Cloud 環境、超長文書処理、信創コンプライアンスが必要な場合、openPangu 2.0 は現時点で競合のない選択肢です。Flash 重みは既にダウンロード可能です。
多くのチームはAscend クラウド推論とローカル Mac 開発環境を分担します。Agent オーケストレーション、HarmonyOS/iOS クライアント連携、CI パイプラインには安定した Apple Silicon ホストが必要です。共有 GPU クラウドでは帯域ジッター、オーバーセルによる長接続切断、マルチテナントの統一メモリ競合が頻発します。ローカル Mac は HW 調達コストと 7×24 運用負荷が課題です。
OpenClaw、Hermes Agent、鸿蒙/iOS 連携パイプラインを安定稼働させる本番環境には、JEXCLOUD 多リージョン裸金属 Mac が最適です:Apple Silicon 専有、仮想化オーバーヘッドなし、月次弹性拡張、約120秒デプロイ。ノード構成と価格は JEXCLOUD 料金ページ をご確認ください。