AI Agent openPangu 2026.07.01

Huawei openPangu 2.0 正式オープンソース： 505B MoE、512K コンテキスト、Ascend 全链路公開

JEX

JEXCLOUD エンジニアリングチーム

· 2026年7月1日 · 約 42 分

2026年6月30日、Huawei は HDC 2026 の約束を果たし、openPangu-2.0-Flash のモデル重み、基本推論コード、訓推オペレータを GitCode Ascend Tribe で公開しました。これはNVIDIA 以外のハードウェアで最先端規模の訓練を完了した初のオープンソース大規模言語モデルであり、全链路オープンソースを計画する数少ない超大型 MoE モデルの一つです。

本記事は、オープンソース盤古 2.0の評価、国産化選定、Ascend 環境へのデプロイを検討する開発者と意思決定者向けです。① HDC 2026 から下半期までのタイムラインと7大コンポーネント、② Pro/Flash 双版本パラメータと DeepSeek・Qwen・Kimi 等の競合比較、③ mHC、Muon、ModAttn、DSA+SWA 等のアーキテクチャ解説、④ ModelArts API と GitCode 自前デプロイの6ステップ実装リスト、⑤ 引用可能な数値データ、ハードウェア要件、オープンソースロードマップを整理します。独立第三者ベンチマーク公開後は継続更新します（文末の免責事項参照）。

01 openPangu 2.0 は何がオープンソースになったのか？タイムラインと7大コンポーネント

2026年6月12日、Huawei Developer Conference HDC 2026 が東莞松山湖で開催され、余承東の基調講演で openPangu 2.0 が正式発表されました。1週間後、Flash 版の重みと推論スタックがオープンソースコミュニティに公開され、2021年の第1世代盤古以来、Huawei にとって最も重要なオープンソースアップグレードとなりました。

痛点1：多くの OSS モデルは重みのみ。推論は可能ですが訓練プロセスを再現できず、学術研究と企業の二次事前学習が制限されます。
痛点2：最先端モデルはほぼ NVIDIA 依存。国産化プロジェクトで A100/H100 を調達できない場合、選択肢が極めて限られます。
痛点3：128K 上限が長文シーンを阻害。契約書、コードベース、超長対話履歴にはより大きなコンテキストが必要です。
痛点4：MoE の訓推不一致。訓練と推論の分布ドリフトは MoE の古典的課題であり、本番安定性に直結します。

オープンソースタイムライン

openPangu 2.0 オープンソースマイルストーン
日時	イベント
2026-06-12	HDC 2026 余承東基調講演で openPangu 2.0 正式発表
2026-06-30	Flash モデル重み・基本推論コード・訓推オペレータを GitCode に公開
2026-07（計画）	Pro モデル重みと推論コード公開
2026 下半期（計画）	事前学習コード、後学習コード、訓練オペレータ等を順次公開

7大オープンソースコンポーネント

モデル構造（アーキテクチャ定義）
モデル重み（Flash 版 6/30 公開済、Pro 版 7月公開予定）
技術レポート（重みと同期公開）
推論コード（基本推論コード + 訓推オペレータ）
事前学習コード（下半期公開予定）
後学習コード（SFT/RLHF 対応、下半期公開予定）
訓練オペレータ（Ascend 高性能カスタムオペレータ、下半期公開予定）

最初の4項目は業界標準です。後3項目（事前/後学習コード + オペレータ）は超大型 MoE では極めて稀であり、真の意味での全链路オープンソースを実現します。

02 openPangu 2.0 Pro vs Flash パラメータ比較、DeepSeek・Qwen との選定

双版本コアパラメータ

openPangu 2.0 Pro / Flash パラメータ早見表
指標	openPangu 2.0 Pro	openPangu 2.0 Flash
総パラメータ数	505B	92B
活性化パラメータ数	18B	6B
スパース比	~28:1	~15:1
コンテキストウィンドウ	512K	512K
利用可能状態	2026年7月（計画）	2026-06-30 公開済

Flash 版：92B 総パラメータ、6B のみ活性化、推論コストが極めて低い。スパース比約 15:1 で、6B 密モデルに近い速度で 92B の知識プールを活用できます。Ascend 910B 単卡推論が可能で、約 96GB 統一メモリシステムでもコミュニティ評価が進んでいます。

Pro 版：505B 総パラメータ、18B 活性化、長文処理能力が非常に強い。512K コンテキストは『三体』第1部約8冊分のテキスト量に相当します。

主要競合横断比較

最先端 OSS LLM パラメータ横断比較（2026年7月）
モデル	総パラメータ	活性化パラメータ	コンテキスト	訓練 HW	OSS 程度
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	全链路（7コンポーネント）
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	全链路（7コンポーネント）
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	重み+推論
Qwen 3.7 Max	~400B+	varies	128K	NVIDIA	重み+推論+一部訓練
Kimi K2.7	1T	32B	256K	NVIDIA	重み+推論
Llama 4 405B	405B	—	128K	NVIDIA	重み+推論

能力マトリクス評価

能力次元比較（アーキテクチャ推定、第三者ベンチマーク待ち）
能力次元	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
コード生成	中	最高	高	高
複雑推論	中	最高	最高	高
ツール呼出/Agent	高	高	高	最高
超長コンテキスト	最高	中	中	高
推論効率	最高	低	低	高
自主可控（国産化）	最高	低	低	低
全链路 OSS	最高	中	中	中

03 openPangu 2.0 の技術アーキテクチャ：mHC、Muon、Ascend 全栈解説

openPangu 2.0 は MoE（混合エキスパート）アーキテクチャを採用し、NVIDIA 以外のハードウェアで全規模訓練を完了した初の最先端大規模言語モデルです。Huawei Ascend 910B NPU のみを使用し、A100 や H100 は一切使用していません。

mHC（Multi-Head Combinatorial）ルーティング：エキスパートルーティング効率を改善し、負荷不均衡を低減します。
Muon オプティマイザ：Microsoft 提案の2次モーメンタム最適化で、大規模訓練の安定性を向上します。
ModAttn（Modular Attention）：モジュラー Attention で 512K 超長コンテキストに対応します。
DSA+SWA 超スパース Attention（Flash 版限定）：極限スパース比を実現し、推論算力要件を大幅に削減します。

ハードウェア適合と訓練ブレークスルー

推論最適化：Ascend 親和アーキテクチャで、単卡スループットは業界主流 OSS モデルの 2倍。
エッジ適合：ネイティブ 30B エッジモデル、推論 50% 高速化、メモリ 20% 削減、麒麟 SoC スマートフォンオフライン実行対応。
推論レイテンシ：同クラスモデル比 1.2倍優位。
ハイパーノード訓練効率：+30% 向上。
長シーケンス訓練：512K 長シーケンス訓練スループット +50%。
訓推一致性：訓練/推論分布一致率 >99%（MoE における重要指標）。
量子化版：Flash-Int8 公開済、W4A8 量子化でメモリ 40% 削減。

開発者エコシステム

ソフトウェアスタック：CANN（Huawei 自研、CUDA 相当）+ torch_npu（PyTorch アダプタ）。
フレームワーク互換：PyTorch 標準コードをサポート、import torch_npu で Ascend バックエンドに切替可能。
デプロイプラットフォーム：クラウド Huawei Cloud ModelArts（API 直調）、OSS GitCode Ascend Tribe 自前デプロイ、エッジ HarmonyOS ネイティブ統合。

04 openPangu 2.0 の使い方：ModelArts API と GitCode 自前デプロイ6ステップ

方案1：Huawei Cloud ModelArts API（最も簡単）

Huawei Cloud アカウント登録：huaweicloud.com で登録します。
ModelArts にアクセス：コンソール → ModelArts → AI Gallery。
検索・購読：「openPangu 2.0」を検索し、Flash または Pro を購読します。
Endpoint 取得：購読後、API Endpoint と認証 Token を取得します。
リクエスト構築：標準 Chat Completions 形式で JSON リクエストを送信します。
レスポンス検証：返却内容を確認後、本番 Agent パイプラインに接続します。

curl — ModelArts API

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [
      {"role": "user", "content": "こんにちは、自己紹介してください"}
    ],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方案2：GitCode ダウンロード自前デプロイ

リポジトリ：gitcode.com/org/ascend-tribe。主要リポジトリ：openPangu-2.0-Flash、openPangu-2.0-Flash-Int8、openPangu-2.0-Infer、openPangu-2.0-Op。

inference.py — Flash 単卡推論

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

distributed_inference.py — Pro 多卡推論

python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000

finetune.py — LoRA ドメイン微調整

python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16

方案3：PyTorch + torch_npu

torch_npu.py

import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")

output = model.generate(
    input_ids.to("npu:0"),
    max_new_tokens=512,
    temperature=0.7
)

05 openPangu 2.0 推論に必要なメモリは？数値データとハードウェア要件

openPangu 2.0 ハードウェア要件参考
バージョン	推奨 HW	最低構成	備考
Flash（6B 活性化）	単卡 Ascend 910B	~96GB 統一メモリ	大メモリシステムでコミュニティテスト可
Flash-Int8	単卡 Ascend Atlas A2	~48GB VRAM	W4A8 量子化、精度損失 <10%
Pro（18B 活性化）	4+ 卡 Ascend 910B	多卡クラスタ	7月重み公開後に検証可能

総パラメータ Pro/Flash：505B / 92B、活性化 18B / 6B、スパース比約 28:1 / 15:1。
コンテキストウィンドウ：両版本 512K tokens、現行 OSS モデル最長クラス。
Ascend 単卡スループット：業界主流 OSS モデル Ascend 上の 2倍。
訓推一致率：>99%、MoE ドリフト問題を大幅に改善。
Flash-Int8 量子化：メモリ 40% 削減、精度損失 <10%。
エッジ Embedded：30B エッジモデル、推論 50% 高速化、メモリ 20% 削減。

06 openPangu 2.0 は誰向けか？選定判断と戦略的意義

シーン別選定早見表

openPangu 2.0 シーン別選定マトリクス
シーン	推奨	理由
コード生成 / 複雑推論	DeepSeek V4 Pro	~200B 活性化、性能リード
Agent / マルチツール協調	Kimi K2.7	MCP エコシステム最充実
超長文書（>256K Token）	openPangu 2.0 Pro	512K コンテキスト第一選択
国産化 / 信創コンプライアンス	openPangu 2.0	純国産 HW 訓練の唯一の最先端モデル
Ascend / Huawei Cloud デプロイ	openPangu 2.0	ネイティブ最適化、スループット 2x
エッジ / スマートフォン	openPangu Embedded	30B エッジ、麒麟 SoC オフライン
低コストローカル推論	openPangu 2.0 Flash	6B 活性化、~96GB で実行可

戦略的意義

地政学：米国の先端 AI チップ規制下でも、NVIDIA なしで最先端規模訓練が可能であることを実証しました。
全链路 OSS 価値：学術研究で訓練プロセス完全再現、企業の垂直ドメイン二次事前学習、Ascend 算力利用障壁の低減。
HarmonyOS Agent 基盤：HarmonyOS 7 が Agent 時代に突入、openPangu 2.0 はネイティブ AI エンジン。鸿蒙 Agent フレームワーク 2.0 の複雑タスク成功率 >90%。

余承東は HDC 2026 で次のように述べました：「私の辞書に第二はない。第一のみ。中国一から世界一へ。」

07 openPangu 2.0 オープンソースロードマップと openPangu License

オープンソースロードマップ

2026-06-30：Flash 重み + 推論コード + 訓推オペレータ（公開済）
2026-07：Pro 重み + 推論コード（計画中）
2026 下半期：事前学習コード、後学習コード、追加オペレータ、データ処理ツール

openPangu License 要点

商用利用可（Commercial Use Permitted）
ロイヤリティフリー（Royalty-free）
非独占（Non-exclusive）
利用規約遵守（GitCode リポジトリの条項に従う）

免責事項：本記事の一部ベンチマークと能力評価はアーキテクチャに基づく推定分析です。独立第三者テスト結果公開後に更新します。公開日：2026年7月1日。

08 まとめ：openPangu 2.0 の独自価値と JEXCLOUD

openPangu 2.0 は現時点で総合能力最強の OSS LLM ではありません。コード生成と複雑推論では DeepSeek V4 Pro が優位です。しかし以下の次元では代替が困難です：

512K 超長コンテキスト——現行 OSS モデル最高クラス
国産化 / 自主可控——NVIDIA 非依存訓練の唯一の最先端モデル
Ascend ネイティブ最適化——Ascend 環境で他モデル比 2倍性能
全链路 OSS——事前/後学習コード含む、業界極めて稀
エッジ適合——麒麟 SoC スマートフォンローカル実行

Ascend または Huawei Cloud 環境、超長文書処理、信創コンプライアンスが必要な場合、openPangu 2.0 は現時点で競合のない選択肢です。Flash 重みは既にダウンロード可能です。

多くのチームはAscend クラウド推論とローカル Mac 開発環境を分担します。Agent オーケストレーション、HarmonyOS/iOS クライアント連携、CI パイプラインには安定した Apple Silicon ホストが必要です。共有 GPU クラウドでは帯域ジッター、オーバーセルによる長接続切断、マルチテナントの統一メモリ競合が頻発します。ローカル Mac は HW 調達コストと 7×24 運用負荷が課題です。

OpenClaw、Hermes Agent、鸿蒙/iOS 連携パイプラインを安定稼働させる本番環境には、JEXCLOUD 多リージョン裸金属 Mac が最適です：Apple Silicon 専有、仮想化オーバーヘッドなし、月次弹性拡張、約120秒デプロイ。ノード構成と価格は JEXCLOUD 料金ページをご確認ください。

ブログ一覧に戻る

タグ： openPangu 2.0 オープンソース盤古 2.0 Huawei LLM オープンソース 512K コンテキスト Ascend NPU MoE 全链路オープン