AI Agent openPangu 2026.07.01

Huawei openPangu 2.0 공식 오픈소스: 505B MoE, 512K 컨텍스트, Ascend 풀스택 공개

JEX

JEXCLOUD 엔지니어링 팀

· 2026년 7월 1일 · 약 42분

2026년 6월 30일 Huawei는 HDC 2026 약속을 이행하여 openPangu-2.0-Flash 모델 가중치, 기본 추론 코드, 훈련·추론 연산자를 GitCode Ascend Tribe에 공개했습니다. 이는 NVIDIA 외 하드웨어에서 최신 규모 훈련을 완료한 최초의 오픈소스 LLM이며, 풀스택 오픈소스를 계획하는 극소수의 초대형 MoE 모델입니다.

본 글은 오픈소스 PanGu 2.0 평가, 국산화 선정, Ascend 배포를 검토하는 개발자·의사결정자를 위합니다. ① HDC 2026~하반기 타임라인·7대 컴포넌트, ② Pro/Flash 듀얼 파라미터·DeepSeek·Qwen·Kimi 경쟁 비교, ③ mHC·Muon·ModAttn·DSA+SWA 아키텍처, ④ ModelArts API·GitCode 자체 배포 6단계 체크리스트, ⑤ 인용 가능 데이터·하드웨어·로드맵을 압축 정리합니다. 독립 벤치마크 공개 후 지속 업데이트(면책 조항 참조).

01 openPangu 2.0 오픈소스 범위: 타임라인·7대 컴포넌트

2026년 6월 12일 HDC 2026(동관 송shan호)에서 Yu Chengdong 기조연설로 openPangu 2.0이 공식 발표되었습니다. 1주 후 Flash 가중치·추론 스택이 커뮤니티에 공개되어 2021년 1세대 PanGu 이후 Huawei 최대 오픈소스 업그레이드가 되었습니다.

페인1: 대부분 OSS는 가중치만 제공. 추론은 가능하나 훈련 재현 불가, 학술·기업 2차 사전학습 제한.
페인2: 최신 모델은 거의 NVIDIA 종속. A100/H100 조달 불가 시 선택지 극히 제한.
페인3: 128K 상한이 장문 시나리오 병목. 계약서·코드베이스·초장 대화에 더 큰 컨텍스트 필요.
페인4: MoE 훈련·추론 불일치. 분포 드리프트는 MoE 고질 과제, 프로덕션 안정성 직결.

오픈소스 타임라인

openPangu 2.0 오픈소스 마일스톤
일시	이벤트
2026-06-12	HDC 2026 기조연설 openPangu 2.0 공식 발표
2026-06-30	Flash 가중치·기본 추론 코드·훈련·추론 연산자 GitCode 공개
2026-07(계획)	Pro 가중치·추론 코드 공개
2026 하반기(계획)	사전학습·후학습 코드·훈련 연산자 순차 공개

7대 오픈소스 컴포넌트

모델 구조(아키텍처 정의)
모델 가중치(Flash 6/30 공개, Pro 7월 예정)
기술 보고서(가중치 동기 공개)
추론 코드(기본 추론 + 훈련·추론 연산자)
사전학습 코드(하반기)
후학습 코드(SFT/RLHF, 하반기)
훈련 연산자(Ascend 커스텀 연산자, 하반기)

전 4항은 업계 표준. 후 3항(사전/후학습+연산자)은 초대형 MoE에서 극히 드물며 진정한 풀스택 오픈소스를 구현합니다.

02 Pro vs Flash 파라미터·DeepSeek·Qwen 선정 비교

듀얼 버전 핵심 파라미터

openPangu 2.0 Pro / Flash 파라미터
지표	openPangu 2.0 Pro	openPangu 2.0 Flash
총 파라미터	505B	92B
활성 파라미터	18B	6B
희소 비율	~28:1	~15:1
컨텍스트	512K	512K
상태	2026년 7월(계획)	2026-06-30 공개

Flash: 92B 총·6B 활성, 추론 비용 극저. 희소비 ~15:1로 6B dense급 속도에 92B 지식 풀. Ascend 910B 단카드 추론, ~96GB UMA 시스템 커뮤니티 테스트 진행.

Pro: 505B 총·18B 활성, 장문 처리 최강. 512K는 『삼체』 1부 약 8권 분량.

주요 경쟁 모델 비교

최신 OSS LLM 파라미터 비교(2026년 7월)
모델	총 파라미터	활성	컨텍스트	훈련 HW	OSS 수준
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	풀스택(7컴포넌트)
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	풀스택(7컴포넌트)
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	가중치+추론
Qwen 3.7 Max	~400B+	varies	128K	NVIDIA	가중치+추론+일부 훈련
Kimi K2.7	1T	32B	256K	NVIDIA	가중치+추론
Llama 4 405B	405B	—	128K	NVIDIA	가중치+추론

능력 매트릭스

능력 차원 비교(아키텍처 추정, 벤치마크 대기)
차원	openPangu Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
코드 생성	중	최상	상	상
복잡 추론	중	최상	최상	상
툴/API·Agent	상	상	상	최상
초장 컨텍스트	최상	중	중	상
추론 효율	최상	하	하	상
자주可控(국산화)	최상	하	하	하
풀스택 OSS	최상	중	중	중

03 openPangu 2.0 아키텍처: mHC·Muon·Ascend 풀스택

openPangu 2.0은 MoE 아키텍처로 NVIDIA 외 HW에서 전 규모 훈련을 완료한 최초의 최신 LLM입니다. Ascend 910B NPU만 사용, A100/H100 미사용.

mHC 라우팅: 전문가 라우팅 효율 개선, 부하 불균형 완화.
Muon 옵티마이저: MS 2차 모멘텀, 대규모 훈련 안정성.
ModAttn: 모듈형 Attention, 512K 장문 대응.
DSA+SWA 초희소 Attention(Flash 전용): 극한 희소비, 추론 연산 대폭 절감.

HW 적합·훈련 돌파

추론 최적화: Ascend 친화 설계, 단카드 처리량 업계 OSS 2배.
엣지: 30B 엣지 모델, 추론 +50%, 메모리 -20%, Kirin SoC 오프라인.
지연: 동급 대비 1.2배 우위.
하이퍼노드 훈련: +30%.
장시퀀스: 512K 처리량 +50%.
훈련·추론 일치: >99%.
양자화: Flash-Int8, W4A8, 메모리 -40%.

개발자 생태계

스택: CANN + torch_npu.
호환: PyTorch 표준, import torch_npu로 Ascend 전환.
배포: Huawei Cloud ModelArts API, GitCode 자체 배포, HarmonyOS 네이티브.

04 openPangu 2.0 사용법: ModelArts API·GitCode 6단계 배포

방안1: ModelArts API(가장 간단)

Huawei Cloud 가입: huaweicloud.com.
ModelArts 진입: 콘솔 → ModelArts → AI Gallery.
검색·구독: openPangu 2.0 Flash/Pro.
Endpoint: API Endpoint·Token 획득.
요청: Chat Completions JSON.
검증: 응답 확인 후 Agent 파이프라인 연결.

curl — ModelArts API

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [
      {"role": "user", "content": "안녕하세요, 자기소개해 주세요"}
    ],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

방안2: GitCode 자체 배포

저장소: gitcode.com/org/ascend-tribe. openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.

inference.py — Flash 단카드

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

distributed_inference.py — Pro 다카드

python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000

finetune.py — LoRA

python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16

방안3: PyTorch + torch_npu

torch_npu.py

import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")

output = model.generate(
    input_ids.to("npu:0"),
    max_new_tokens=512,
    temperature=0.7
)

05 openPangu 2.0 추론 메모리·하드웨어 요건

openPangu 2.0 HW 요건
버전	권장 HW	최소	비고
Flash(6B 활성)	Ascend 910B 단카드	~96GB UMA	대용량 메모리 테스트 가능
Flash-Int8	Ascend Atlas A2	~48GB VRAM	W4A8, 정밀도 손실 <10%
Pro(18B 활성)	910B 4+카드	다카드 클러스터	7월 가중치 후 검증

총/활성: Pro 505B/18B, Flash 92B/6B, 희소비 28:1/15:1.
컨텍스트: 512K tokens, OSS 최장급.
Ascend 단카드 처리량: 업계 OSS 2배.
훈련·추론 일치: >99%.
Flash-Int8: 메모리 -40%, 손실 <10%.
Embedded: 30B 엣지, +50%/-20%.

06 openPangu 2.0 대상·선정·전략

시나리오 선정표

openPangu 2.0 시나리오 매트릭스
시나리오	권장	이유
코드·복잡 추론	DeepSeek V4 Pro	~200B 활성, 성능 1위
Agent·멀티툴	Kimi K2.7	MCP 생태 최강
초장문(>256K)	openPangu Pro	512K 1순위
국산화·信創	openPangu 2.0	순국산 HW 훈련 유일
Ascend·Huawei Cloud	openPangu 2.0	네이티브 2x
엣지·모바일	openPangu Embedded	30B, Kirin 오프라인
저비용 로컬	openPangu Flash	6B, ~96GB

전략적 의미

지정학: 미국 AI 칩 규제下 NVIDIA 없이 최신 규모 훈련 실증.
풀스택 OSS: 학술 재현·기업 도메인 2차 사전학습·Ascend 진입장벽 완화.
HarmonyOS Agent: HarmonyOS 7 Agent 시대, openPangu 2.0 네이티브 엔진, 프레임워크 2.0 복잡 태스크 >90%.

Yu Chengdong HDC 2026: 「내 사전에 2위는 없다. 1위만. 중국 1위에서 세계 1위로.」

07 openPangu 2.0 로드맵·openPangu License

로드맵

2026-06-30: Flash 가중치+추론+연산자(공개)
2026-07: Pro 가중치+추론(계획)
2026 하반기: 사전/후학습·연산자·데이터 도구

진행: GitCode Ascend Tribe, HDC 2026, ModelArts.

openPangu License

상업 이용 허용
로열티 프리
비독점
GitCode 약관 준수

면책: 일부 벤치마크는 아키텍처 추정. 독립 테스트 후 업데이트. 2026년 7월 1일.

08 결론: openPangu 2.0·JEXCLOUD

openPangu 2.0은 현재 종합 1위 OSS LLM은 아닙니다. 코드·복잡 추론은 DeepSeek V4 Pro 우위. 그러나 다음 차원에서 대체 불가:

512K 초장 컨텍스트
국산화·자주可控——NVIDIA 비의존 유일 최신 모델
Ascend 네이티브 2x
풀스택 OSS——사전/후학습 포함
엣지——Kirin 로컬

Ascend·Huawei Cloud·초장문·信創이면 openPangu 2.0은 경쟁자 없는 선택. Flash 가중치 다운로드 가능.

많은 팀이 Ascend 클라우드 추론과 로컬 Mac 개발을 분담합니다. Agent 오케스트레이션, HarmonyOS/iOS 연동, CI에는 안정 Apple Silicon 호스트 필요. 공유 GPU 클라우드는 대역폭 지터·오버셀 장연결 단절·멀티테넌트 UMA 경합 빈발. 로컬 Mac은 HW·7×24 부담.

OpenClaw·Hermes Agent·鸿蒙/iOS 파이프라인 프로덕션에는 JEXCLOUD 다리전 베어메탈 Mac이 최적: Apple Silicon 전용, 가상화 오버헤드 없음, 월간 탄력, ~120초 배포. JEXCLOUD 요금 참조.

블로그 목록으로

태그: openPangu 2.0 오픈소스 PanGu 2.0 Huawei LLM 오픈소스 512K 컨텍스트 Ascend NPU MoE 풀스택 오픈소스