AI Agent openPangu 2026.07.01

Huawei openPangu 2.0 공식 오픈소스: 505B MoE, 512K 컨텍스트, Ascend 풀스택 공개

2026년 6월 30일 Huawei는 HDC 2026 약속을 이행하여 openPangu-2.0-Flash 모델 가중치, 기본 추론 코드, 훈련·추론 연산자를 GitCode Ascend Tribe에 공개했습니다. 이는 NVIDIA 외 하드웨어에서 최신 규모 훈련을 완료한 최초의 오픈소스 LLM이며, 풀스택 오픈소스를 계획하는 극소수의 초대형 MoE 모델입니다.

본 글은 오픈소스 PanGu 2.0 평가, 국산화 선정, Ascend 배포를 검토하는 개발자·의사결정자를 위합니다. ① HDC 2026~하반기 타임라인·7대 컴포넌트, ② Pro/Flash 듀얼 파라미터·DeepSeek·Qwen·Kimi 경쟁 비교, ③ mHC·Muon·ModAttn·DSA+SWA 아키텍처, ④ ModelArts API·GitCode 자체 배포 6단계 체크리스트, ⑤ 인용 가능 데이터·하드웨어·로드맵을 압축 정리합니다. 독립 벤치마크 공개 후 지속 업데이트(면책 조항 참조).

01 openPangu 2.0 오픈소스 범위: 타임라인·7대 컴포넌트

2026년 6월 12일 HDC 2026(동관 송shan호)에서 Yu Chengdong 기조연설로 openPangu 2.0이 공식 발표되었습니다. 1주 후 Flash 가중치·추론 스택이 커뮤니티에 공개되어 2021년 1세대 PanGu 이후 Huawei 최대 오픈소스 업그레이드가 되었습니다.

  • 페인1: 대부분 OSS는 가중치만 제공. 추론은 가능하나 훈련 재현 불가, 학술·기업 2차 사전학습 제한.
  • 페인2: 최신 모델은 거의 NVIDIA 종속. A100/H100 조달 불가 시 선택지 극히 제한.
  • 페인3: 128K 상한이 장문 시나리오 병목. 계약서·코드베이스·초장 대화에 더 큰 컨텍스트 필요.
  • 페인4: MoE 훈련·추론 불일치. 분포 드리프트는 MoE 고질 과제, 프로덕션 안정성 직결.

오픈소스 타임라인

openPangu 2.0 오픈소스 마일스톤
일시 이벤트
2026-06-12HDC 2026 기조연설 openPangu 2.0 공식 발표
2026-06-30Flash 가중치·기본 추론 코드·훈련·추론 연산자 GitCode 공개
2026-07(계획)Pro 가중치·추론 코드 공개
2026 하반기(계획)사전학습·후학습 코드·훈련 연산자 순차 공개

7대 오픈소스 컴포넌트

  1. 모델 구조(아키텍처 정의)
  2. 모델 가중치(Flash 6/30 공개, Pro 7월 예정)
  3. 기술 보고서(가중치 동기 공개)
  4. 추론 코드(기본 추론 + 훈련·추론 연산자)
  5. 사전학습 코드(하반기)
  6. 후학습 코드(SFT/RLHF, 하반기)
  7. 훈련 연산자(Ascend 커스텀 연산자, 하반기)

전 4항은 업계 표준. 후 3항(사전/후학습+연산자)은 초대형 MoE에서 극히 드물며 진정한 풀스택 오픈소스를 구현합니다.

02 Pro vs Flash 파라미터·DeepSeek·Qwen 선정 비교

듀얼 버전 핵심 파라미터

openPangu 2.0 Pro / Flash 파라미터
지표 openPangu 2.0 Pro openPangu 2.0 Flash
총 파라미터505B92B
활성 파라미터18B6B
희소 비율~28:1~15:1
컨텍스트512K512K
상태2026년 7월(계획)2026-06-30 공개

Flash: 92B 총·6B 활성, 추론 비용 극저. 희소비 ~15:1로 6B dense급 속도에 92B 지식 풀. Ascend 910B 단카드 추론, ~96GB UMA 시스템 커뮤니티 테스트 진행.

Pro: 505B 총·18B 활성, 장문 처리 최강. 512K는 『삼체』 1부 약 8권 분량.

주요 경쟁 모델 비교

최신 OSS LLM 파라미터 비교(2026년 7월)
모델 총 파라미터 활성 컨텍스트 훈련 HW OSS 수준
openPangu 2.0 Pro505B18B512KAscend NPU풀스택(7컴포넌트)
openPangu 2.0 Flash92B6B512KAscend NPU풀스택(7컴포넌트)
DeepSeek V4 Pro1.6T~200B128KNVIDIA가중치+추론
Qwen 3.7 Max~400B+varies128KNVIDIA가중치+추론+일부 훈련
Kimi K2.71T32B256KNVIDIA가중치+추론
Llama 4 405B405B128KNVIDIA가중치+추론

능력 매트릭스

능력 차원 비교(아키텍처 추정, 벤치마크 대기)
차원 openPangu Pro DeepSeek V4 Pro Qwen 3.7 Max Kimi K2.7
코드 생성최상
복잡 추론최상최상
툴/API·Agent최상
초장 컨텍스트최상
추론 효율최상
자주可控(국산화)최상
풀스택 OSS최상

03 openPangu 2.0 아키텍처: mHC·Muon·Ascend 풀스택

openPangu 2.0은 MoE 아키텍처로 NVIDIA 외 HW에서 전 규모 훈련을 완료한 최초의 최신 LLM입니다. Ascend 910B NPU만 사용, A100/H100 미사용.

  • mHC 라우팅: 전문가 라우팅 효율 개선, 부하 불균형 완화.
  • Muon 옵티마이저: MS 2차 모멘텀, 대규모 훈련 안정성.
  • ModAttn: 모듈형 Attention, 512K 장문 대응.
  • DSA+SWA 초희소 Attention(Flash 전용): 극한 희소비, 추론 연산 대폭 절감.

HW 적합·훈련 돌파

  • 추론 최적화: Ascend 친화 설계, 단카드 처리량 업계 OSS 2배.
  • 엣지: 30B 엣지 모델, 추론 +50%, 메모리 -20%, Kirin SoC 오프라인.
  • 지연: 동급 대비 1.2배 우위.
  • 하이퍼노드 훈련: +30%.
  • 장시퀀스: 512K 처리량 +50%.
  • 훈련·추론 일치: >99%.
  • 양자화: Flash-Int8, W4A8, 메모리 -40%.

개발자 생태계

  • 스택: CANN + torch_npu.
  • 호환: PyTorch 표준, import torch_npu로 Ascend 전환.
  • 배포: Huawei Cloud ModelArts API, GitCode 자체 배포, HarmonyOS 네이티브.

04 openPangu 2.0 사용법: ModelArts API·GitCode 6단계 배포

방안1: ModelArts API(가장 간단)

  1. Huawei Cloud 가입: huaweicloud.com.
  2. ModelArts 진입: 콘솔 → ModelArts → AI Gallery.
  3. 검색·구독: openPangu 2.0 Flash/Pro.
  4. Endpoint: API Endpoint·Token 획득.
  5. 요청: Chat Completions JSON.
  6. 검증: 응답 확인 후 Agent 파이프라인 연결.
curl — ModelArts API
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [
      {"role": "user", "content": "안녕하세요, 자기소개해 주세요"}
    ],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

방안2: GitCode 자체 배포

저장소: gitcode.com/org/ascend-tribe. openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.

inference.py — Flash 단카드
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16
distributed_inference.py — Pro 다카드
python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000
finetune.py — LoRA
python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16

방안3: PyTorch + torch_npu

torch_npu.py
import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")

output = model.generate(
    input_ids.to("npu:0"),
    max_new_tokens=512,
    temperature=0.7
)

05 openPangu 2.0 추론 메모리·하드웨어 요건

openPangu 2.0 HW 요건
버전 권장 HW 최소 비고
Flash(6B 활성)Ascend 910B 단카드~96GB UMA대용량 메모리 테스트 가능
Flash-Int8Ascend Atlas A2~48GB VRAMW4A8, 정밀도 손실 <10%
Pro(18B 활성)910B 4+카드다카드 클러스터7월 가중치 후 검증
  • 총/활성: Pro 505B/18B, Flash 92B/6B, 희소비 28:1/15:1.
  • 컨텍스트: 512K tokens, OSS 최장급.
  • Ascend 단카드 처리량: 업계 OSS 2배.
  • 훈련·추론 일치: >99%.
  • Flash-Int8: 메모리 -40%, 손실 <10%.
  • Embedded: 30B 엣지, +50%/-20%.

06 openPangu 2.0 대상·선정·전략

시나리오 선정표

openPangu 2.0 시나리오 매트릭스
시나리오 권장 이유
코드·복잡 추론DeepSeek V4 Pro~200B 활성, 성능 1위
Agent·멀티툴Kimi K2.7MCP 생태 최강
초장문(>256K)openPangu Pro512K 1순위
국산화·信創openPangu 2.0순국산 HW 훈련 유일
Ascend·Huawei CloudopenPangu 2.0네이티브 2x
엣지·모바일openPangu Embedded30B, Kirin 오프라인
저비용 로컬openPangu Flash6B, ~96GB

전략적 의미

  • 지정학: 미국 AI 칩 규제下 NVIDIA 없이 최신 규모 훈련 실증.
  • 풀스택 OSS: 학술 재현·기업 도메인 2차 사전학습·Ascend 진입장벽 완화.
  • HarmonyOS Agent: HarmonyOS 7 Agent 시대, openPangu 2.0 네이티브 엔진, 프레임워크 2.0 복잡 태스크 >90%.

Yu Chengdong HDC 2026: 「내 사전에 2위는 없다. 1위만. 중국 1위에서 세계 1위로.」

07 openPangu 2.0 로드맵·openPangu License

로드맵

  • 2026-06-30: Flash 가중치+추론+연산자(공개)
  • 2026-07: Pro 가중치+추론(계획)
  • 2026 하반기: 사전/후학습·연산자·데이터 도구

진행: GitCode Ascend Tribe, HDC 2026, ModelArts.

openPangu License

  • 상업 이용 허용
  • 로열티 프리
  • 비독점
  • GitCode 약관 준수

면책: 일부 벤치마크는 아키텍처 추정. 독립 테스트 후 업데이트. 2026년 7월 1일.

08 결론: openPangu 2.0·JEXCLOUD

openPangu 2.0은 현재 종합 1위 OSS LLM은 아닙니다. 코드·복잡 추론은 DeepSeek V4 Pro 우위. 그러나 다음 차원에서 대체 불가:

  1. 512K 초장 컨텍스트
  2. 국산화·자주可控——NVIDIA 비의존 유일 최신 모델
  3. Ascend 네이티브 2x
  4. 풀스택 OSS——사전/후학습 포함
  5. 엣지——Kirin 로컬

Ascend·Huawei Cloud·초장문·信創이면 openPangu 2.0은 경쟁자 없는 선택. Flash 가중치 다운로드 가능.

많은 팀이 Ascend 클라우드 추론로컬 Mac 개발을 분담합니다. Agent 오케스트레이션, HarmonyOS/iOS 연동, CI에는 안정 Apple Silicon 호스트 필요. 공유 GPU 클라우드는 대역폭 지터·오버셀 장연결 단절·멀티테넌트 UMA 경합 빈발. 로컬 Mac은 HW·7×24 부담.

OpenClaw·Hermes Agent·鸿蒙/iOS 파이프라인 프로덕션에는 JEXCLOUD 다리전 베어메탈 Mac이 최적: Apple Silicon 전용, 가상화 오버헤드 없음, 월간 탄력, ~120초 배포. JEXCLOUD 요금 참조.