ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [GPU WAR v2] AMD는 RX7000에서 플래그십이 멸망했나?
    뇌피셜 IT 2022. 11. 7. 02:52
    한국시간 2022년 11월 4일 새벽 5시 AMD는 이번 세대의 AMD GPU를 발표하였다
    발표 내용은 충격과 공포였다
    (아마도) 황가 놈의 RTX4080 16GB 보다 좋은 그래픽카드를 단돈 $999에 발표한 것이다
    그런데 그래픽카드 연산유닛이 이전 루머와 다르게 너무나 적다.....?
    또한 RTX4090 그리고 이후에 RTX4090ti를 상대할 그래픽카드가 없다....?!


    여러모로 충격적인 제품 발표가 아닌가 싶다

    1. NAVI31 연산유닛이 기존 루머와 다르게 너무나 적다

    기존 루머대로면 NAVI31의 CU가 192개 / NAVI32의 CU가 128개였다. 그런데 발표된 내용은 NAVI31의 CU가 96개란다
    그러면 그 아래의 라인업은? TechPowerUp에서는 이에 대한 라인업 사양을 수정하였다
    (RX7800XT ↔ RX7900XT 간의 간극이 너무 크므로 RX7800XTX는 RX7900XT의 컷칩일 것이다)

    그래픽카드 모델 RX6950XT RX7600XT RX7800XT RX7900XT RX7900XTX
    구분 NAVI21 Full NAVI33 Full NAVI 32 Full NAVI31 Cut NAVI31 Full
    CU/ShadingUnit 80/5120 32/2048 64/4096 84/5376 (E)192/12288
    96/6144
    전세대 대비 4K 성능
    (공식발표 기준)
    100% (E)75~80% (E)110~118% (E)131~140% (E)150~160%
    MSRP($) 1099 (E)299/329
    (E)449/499
    /549
    899 (E)1199/1299/1399
    999
    가격 상승률 - - (E)-50/55/59% -12% (E)+150/171/192%
    -9%

    분명 네이밍상으로 저렴해진 것 같긴 하다. 성능과 연산유닛이 늘었는데 가격은 줄어들었으니
    문제는 이게 2년만에 나오는 차세대 제품이라는 거다. 차세대인데 꼴랑 CU가 이것밖에 안 늘었다고.....?!

    • 칩셋 체급이 낮아질수록 올릴 수 있는 클럭이 높아지기에 CU가 줄어든만큼 성능이 줄진 않을 것이다

    2. 아키텍쳐는 성능개선이 충분한가

    이를 위해서 퀘이사존의 공식 벤치마크 점수유저의 RTX4090 전력절감 시의 성능을 참고하였다

    그래픽카드 모델 RX6900XT RX7900XTX RTX4090
    칩셋 NAVI21 Full NAVI31 Full AD102 Cut
    연산유닛 80/5120 96/6144 128/16384
    소모전력 335W 355W 450W 315W
    4K 평균 점수 100% (E)161~172% 189% 170%
    제조공정 TSMC 7nm TSMC 5nm TSMC 4N(5nm개선)

    의외로 아키텍쳐 개선은 AMD가 NVIDIA를 따라잡은 것으로 보인다

    • TSMC 5nm에서 NVIDIA용으로 개량한 것은 TSMC 4N이라고 부르며 4nm가 아닌 5nm로 간주한다
    • 개선된 공정을 사용하는 NVIDIA소모전력이 더 낮은 것은 당연하다
    • 암레말 전문가 피셜 원래 3GHz가 가능한데 초기 수율이 낮아 2.3GHz로 출시했다고 한다. 암레발을 고려해 보면 양품은 3GHz는 당연히 안 되고 2.5~2.7GHz 까지 가능할 것으로 보인다
    • 만약 RX7900XTX가 128CU로 나왔다면 (연산유닛 증가에서 10% 성능손실 포함 시) RTX4090과 동급으로 나왔을 듯 하다

    3. NAVI31 칩셋 사이즈가 줄어들었다 = 단가가 바뀌었다

    그렇다면 단가 계산을 다시 하는 것이 인지상정. TSMC의 5nm 수율은 이전 게시물의 전제를 참고한다

    hipset NAVI21 NAVI33 NAVI32 GCD NAVI31
    GCD
    NAVI31/32
    MCD
    NAVI32
    (GCD+4MCD)
    NAVI31
    (GCD+6MCD)
    Die Size(㎟) 520 (E)400
    (E)203
    (E)263
    (E)200
    (E)369
    308
    (E)44
    37.5
    - -
    가로x세로
    (mm)
    28.39x18.31 (E)14.61x13.9 (E)11.42x17.52 25x12.32 7.56x4.96 - -
    공정 TSMC 7nm TSMC 5nm TSMC 7nm - -
    Die per Wafer
    (12inch)
    31 170 166 82 1316 - -
    Price of
    Wafer($)

    9346 16988 9346 - -
    단가 301.5 55 102.3 207.2 7.1 130.7 249.8
    단가 상승률 - (기준) - - - - -56% -17%

    분명한 것은 이번세대에서 AMD는 그래픽카드 제조단가를 압도적으로 낮추는 데 성공했다
    왜 이렇게 다이 사이즈를 줄였을까? 한번 추측해 보았다

    • 기존 사이즈대로 만드는 데에 수율이 생각보다 더 안 나왔다 ← 지금도 3GHz 목표인데 2.3GHz로 출시
    • 애초에 NAVI31 GCD의 원래 사이즈 안에 192CU를 넣는데 실패하였다
    • NAVI31 GCD 안에 최대한 넣어봐도 128CU였고, 풀칩 기준으로 RTX4090(AD102 Cut)을 이기지만 RTX4090ti(AD102 Full)는 어떻게 해도 이길 수 없었다
    • 애초에 NVIDIA 플래그십을 이길 수 없으니, 제조단가가 압도적으로 저렴한 점을 살렸다
    • 그래서 RTX3080 16GB에 대한 맞상대RX7900XTX를 출시하였다

    4. 그러면 차세대 그래픽카드 제조단가는 어떻게 될까?

    NVIDIA의 제조단가는 이전 게시물을 그대로 가져와서 합쳤다

      AMD Reference NVIDIA
    제품 RX7800XT RX7900XT RX7900XTX RTX3090 RTX4080 12GB
    (E)RTX4070
    RTX4080
    (16GB)
    RTX4090
    성능 지표
    (4K 게이밍)
    107~114% 127~136% 146~155% 100% (E)105% (E)126% 171%
    단가(E) 130.7 249.8↓ 249.8 - 195.26 303.36↓ 849.4↓
    MSRP (E)499/549 899 999 1499 899 1199 1599

    AMD가 RX7900XTX $999에 발표한 이유가 있었다

    • RTX7800XTRTX4080 16GB보다 제조단가가 17%가량 더 저렴하다 → 판매가 25% 저렴
    • DLSS3.0 / RayTracing 성능이 1세대 뒤쳐지는 것을 감안하여 판매가가 책정되었다
    • DLSS3.0 / RayTracing을 사용하지 않는 경우, RX7900XTX는 RTX4080 16GB보다 16% 저렴하고 성능은 16~23% 더 좋다 RTX4080 16GB를 확실하게 조지겠다는 AMD의 의지
    • (아마도)RTX4070랑 비슷한 깡성능을 가진 RX7800XT33% 저렴하게 생산한다
    • RX6950XT(MSRP $1,099 / 제조단가 301.5) 성능인 RX7800XT(제조단가 130.7)를 반값으로 살 수 있다!?
    • NAVI31/32 MCM 패키징 비용을 고려해도, NVIDIA 대비 AMD GPU의 제조단가가 압도적으로 저렴하다

    5. AMD는 플래그십 그래픽 카드는 포기한 것인가?

    최근에 MCM구조에서 GCDx2구조를 가진 연구용 AMD 그래픽카드인 Insticnt MI250X가 불안정할 수도 있다는 루머가 나온 적 있다. 해당 제품이 최초로 탑재된 프론티어 슈퍼컴퓨터 성능이 60%밖에 안 나온다는 얘기였다
    Insticnt MI250X에 탑재된 GCD 연결 고속버스인 Infinity Fabric 대역폭400GB/s로 AMD에서 발표한 바 있다
    그러나 CPU인 R5 5600XL2캐시 대역폭은 800GB/s이고, L3캐시는 500GB/s 정도이다. 구조는 코어당 L1/L2코어를 각각 가지며, L3캐시는 공유하는 형태이다
    하지만 CPU에서 충분했던 대역폭이 GPU에서는 부족할 수 있다

    • 한번에 처리하는 데이터량 GPU가 CPU보다 압도적으로 많다 : MI250 GCD 1개 22.63TFLOPS vs R5 5600X 0.5TFLOPS
    • 그래픽카드 GCD 연결은 L2캐시 동기화가 핵심이므로, L2캐시 대역폭인 800GB/s가 필요하다
    • 벤치마크라는 간단한 구조에서는 최대성능이 나오지만, 실제 연구/게이밍 환경에서는 그래픽 드라이버의 부족함 때문에 성능손실이 40%가량 나온다

    이런 현실 속에서 세 가지 시나리오를 기반으로 AMD의 GCDx2구조의 플래그십 그래픽 카드를 준비하고 있다고 고려해 본다. 왜냐하면 CPU인 Ryzen 7000시리즈를 저렇게 조져놓은 이유라고 한다면, 아직도 핵심인원이 GPU개발에 매달려 있다고 밖에 안 보이기 때문이다

    AMD가 플래그십 그래픽카드GCDx2 구조의 MCM을 고려한다면 GCD 코어로 NAVI31을 사용할 것인데, 문제는 해당 성능손실을 얼마나 만회하냐에 따라 출시/미출시가 정해질 것으로 보인다

    ① Infinity Fabric 대역폭 문제(HW 결함)로 40% 성능손실이 불가피한 경우

    → 미출시

    ② 그래픽 드라이버 최적화로 30% 성능손실로 만회할 경우
    ③ Infinity Fabric 개선 & 그래픽 드라이버 최적화로 20% 성능손실로 만회할 경우

    이 경우 경쟁사와 비교한 성능 및 제조단가는 아래와 같다. 그래픽카드 내부의 MCM은 NAVI31 GCDx2 + MCDx6의 구조를 가질 것으로 보인다

      AMD
    Reference NVIDIA
    제품 RX7800XT RX7900XTX RX7990XTX? RTX3090 RTX4090 RTX4090Ti
    연산유닛 64/4096 96/6144 192/12288 - 128/16384 144/18432
    성능 지표
    (4K 게이밍)
    97~104% 146~155% ② 204~217%
    ③ 234~248%
    100% 171% (E)192%
    단가(E) 130.7 249.8 457 - 849.4↓ 849.4
    MSRP($) (E)499/549 999 ② 1499/1599
    ③ 1699/1799
    1499 1599 (E)1999/2099

    RX7990XTX가 RTX4090Ti한테는 여전히 RayTracing 성능은 이길 수 없다

    • RX7900XTX의 RayTracing 성능RX6950XT의 1.5배이다 (공식 발표자료 中)
    • 4K 게임에서 RayTracing 성능은 RTX4090가 RTX3090의 1.77배이므로, RTX4090Ti는 1.99배이다
    • RX7990XTX의 RayTracing 성능 RTX3090의 1.4~1.6배이므로 RTX4090Ti보다 저렴하다

    그렇다면 RX7990XTX 제조단가가 저렴한 주제에 왜 저리 비쌀까?

    • 동세대에서 깡성능 KING
    • MCM 구조 도입을 위한 연구개발비가 상상이상으로 매우 클 것이다
    • GCDx2 구조 도입을 위해서 ZEN4 개발진을 투입했기에, CPU 덜 팔린 부분을 GPU에서 메꾸기 위해서


    (추가) RX7900XTX가 RTX4080과 동급의 성능을 보여주면서, 가성비만 챙기고 RayTracing 및 뛰어난 판매 우위요소는 보이지 못하게 되었다

    <세줄요약>

    1. RTX4090 이상을 제외한 NVIDIA 그래픽카드제조단가에서 AMD에 밀린다
    2. (아마도) AMD는 NAVI31 기반의 GCDx2 그래픽카드를 준비 중이다
    3. 만약 (성능저하 이슈 해결 후) RX7990XTX가 출시된다면 절대로 저렴하지 않을 것이다

    댓글

Designed by Tistory.