테크노아
> 기획&벤치 > 강좌
7세대 CPU 비교 - Athlon편
테크노아  |  webmaster@technoa.co.kr
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2000.03.21  20:50:00
트위터 페이스북 미투데이 요즘 네이버 구글 msn

7세대 CPU 비교 - Athlon편

본 강좌는 www.azillonmonky.com에 실린 내용을 발췌 및 번역한 글입니다. - 편집자 주

by Paul Hsieh

지난 99년 8월 11일 제 7 세대 CPU 개발을 완료했다고 발표한 업체가 있었으며 이는 바로 Athlon을 제작한 AMD 사였다.  필자는 AMD사의 Athlon 특징을 시작으로 7세대 CPU 비교를 시작하고자 하며, 인텔의 Willamette 코어가 빨리 개발 완료 되기를 기다린다. 또한 VIA와 Transmeta 가 7세대에 부응할 수 있는 우수한 CPU를 제작해서 같이 비교해 볼 수 있기를 바라는 바이다.

AMD Athlon 프로세서

K7 이라 이미 알려진 Athlon은 AMD사의 K6 마이크로프로세서 제품군의 의 후속 모델이다. 필자는 이미 K6  아키텍쳐의 열렬한 팬이기도 하며 Athlon이 출시 되기 전에 많은 기대를 했었다. 그리고 마침내 Athlon은 첫 테이프를 끊었다.

99년 8월 9일 AMD가 Athlon 프로세서의 일반적인 사용에 대해 공식적인 발표를 한 후 한 차례의 벤치마크와 리뷰가 발표되었으며, 몇몇 예외적인 사람을 제외하고는, 대부분은 같은 코어 클럭에서 Athlon이 펜티엄 시리즈 보다 빠르게 작동하고 성능이 우수하다는 점을 인정하였다.

놀랍게도 650Mhz 클럭속도의 Athlon 은 출시 당시 667Mhz 로 작동함으로서 가장 빠른 클럭 속도를 자랑했던 알파 21264 다음으로 빠른 클럭 속도를 가진 CPU가 되었다.

이러한 수치적인 우월함 외에도 이 아키텍쳐의 실제적인 장점은 무엇일까?  필자가 말하고 싶은 부분은  Athlon은  K6 와 알파 21264 성능의 중간 단계쯤이라는 것이다.  Athlon은 성능면에서 탁월한 알파 21264 에  뒤지지 않으며, K6 아키텍쳐가 좀 더 명확해졌다는 장점을 가지고 있다.

AMD는 Athlon이 최초의 제 7세대 프로세서를 구성할 수 있는 프로세서라고 자랑했으며 Athlon의 대부분의 특징은 기존의 K6에서 볼 수 있는 특징을  한층 강화 시킨 것이라고 볼 수 있다.  이 둘 사이의 차이점은 Athlon의 부동 소수점 연산이 비 순차적이라는 점이다. Athlon은 88개의 레지스터리 네임과 AMD 가 개발한 완벽한 슈퍼스칼라 FPU의 조합을 통해 지금까지의 모든 아키텍쳐에서 앞서고 있다.-아마도 21264를 제외하고-  몇몇 고성능 프로세서 테스터들은 불평을 늘어 놓을 수도 있겠지만 Athlon은 K6 와 P6 아키텍쳐를 능가하는 상당한 수준의 성능을 자랑한다.

코어의 비교

먼저 Athlon과 알파 21264, P6 코어를 비교하고자 한다.  다음 표는 각 업체들에게서 받은 것으로 각각의 아키텍쳐를 비교한 참조도표이다. 마크한 부분은 프로그래밍의 관점에서 매우 중요한다고 생각되는 부분이며 아래에 매우 자세히 설명되어 있다. 빨갛게 마크한 부분은 느리거나 이전 세대 프로세서의 특징이며, 녹색 마크는 빠르고 뛰어난 성능을 가진 프로세서의 특징을 표시하고 있다.

위의 참조도표는 AMD사로부터 최근에 받은 X86 호환 가능 아키텍쳐이다. 이는 인텔의 Pentium II CPU 와 호환 가능한 인스트럭션 세트이며, 처리가 번거로운 x86 인스트럭션 세트를 RISC 와 같은 고성능 명령체계로 변환하기 위해 새로운 번역 명령체계를 사용하게 된다, RISC 명령어는 뛰어난 마이크로아키텍쳐로 구동된다.

Athlon에서 머신 주위를 움직이는 정보의 대부분은 RISC 동작으로 해독되지 않으며 이것은 메크로 작동한다. 필자는 이 내용에 대해 Athlon에서 ALU는 매크로 작동을 해독하지 못하고 K6 의 RISC86 동작과 유사한 개별적인 작동을 해독한다고 생각한다. 이는 위의 의견에 반대하는 것은 아니며 다만 견해의 차이일 뿐이다. 번역된 매크로 오퍼레이션 번들은 단지 Athlon안에 위치한 편리한 구조이며, 이로 인해 x86 인스트럭션 세트를 더 완벽하게 커버하게 된다. (이것은 클럭 당 기능 유닛이 더 많은 작동을 하게 되는 효과를 가져오게 된다. 각각의 번들은 독립적인 동작을 통해 ALU 로 이동되며 필자는 개인적으로 이 작동을 RISC 동작이라고 해석하고 싶다.

Athlon에서 머신 주위를 움직이는 정보의 대부분은 RISC 동작으로 해독되지 않는다는 말은 Athlon에서 번역 기능을 담당하는 내부 기계 장치가 K6 나 P6 에서 번역했던 형태와 유사성이 없기 때문이라고 필자는 확신한다.  따라서 AMD가 Athlon을 이전 세대의 칩이 작동했던 방식과 차별화 하는 것은 마케팅 차원에서 중요한 점이라고 할 수 있다. 물론 이는 필자가 생각하고 싶지 않은 부분이기도 하다. 필자에 관한 한 x86 에서 RISC 로의 해독은 딱딱하고 성급하게 정의를 한 기술적 표현으로 필자로 하여금 오해를 하게 만드는 부분이기도 하다.

알파 21264 는 DEC Alpha가  가장 최근의 기술을 구체화되어 발표한 제품이라고 볼 수 있다. 21264는 단연 진보된 아키텍쳐로 부동 소수점 연산이 비순차적이고 슈퍼스칼라구조이다. 21264 는 업계 표준인 SPEC 벤치마크에서 지구상에서 가장 빠른 마이크로프로세서라고 인정받은 바 있다.

P6 은 인텔이 최근 Pentium Pro 아키텍쳐를 구체화 시킨 것으로 이는 x86 명령어를 진보된 비순차적 코어에 의해 실행되는 명령어인 RISC로 번역한다.

일반적인 아키텍쳐

Athlon은 파이프라인이 긴 아키텍쳐이며, P6 와 같이, 효과적인 RISC로 번역하기 위한 일환으로 x86 명령어 아키텍쳐의 특이한 규정을 해결하기 위해 수 많은 작업을 수행하게 된다.- 마치 자동차 엔진처럼 Athlon은 고도로 파이프라인화된 명령어 prefetch 와 align stages 에 의해 제공되는 3개의 발달한 대칭 순행 통로 x86 디코더와 함께 출시되었다. The direct path decoders 는 메모리-레지스터 명령어 뿐 아니라 짧은 x86 명령어를 취할 수 있다. 이 명령어들은 2개 패킷 작동을 포함하는 매크로 작동으로 (Macro- Ops) 번역될 수 있다. 따라서 Athlon의 front end 는 실제로 클럭당  6개의 번역된 동작을 처리할 수 있다. ( 이 번역기는 또한 x86 에서 거의 사용되지 않았던  방식인 클럭당 one vector path decode 를 처리하게 된다.)

Athlon은 18 개의 integer reservation station 과 36개의 FPU 저장 스테이션 이외에도 72개의 엔트리 명령어 제어 유닛을 가지고 있다. 따라서 144 개까지 작동이 가능하며, P6 에서의 40 개의 엔트리 재명령 버퍼에 비해 상당량 증가한 것이라고 볼 수 있다. 이와 같이 Athlon은 뛰어난 성능을 자랑하며, 방대한 양의 작업을 수행할 수 있을 것으로 보인다.

Athlon 은 D-cache 내부에 2개의 읽어오는 포트와 하나의 저장 포트를 가지고 있다. (참고로 P6 코어는 클럭당 하나의 load 또는 store  혹은 이 둘의 처리량을 감당할 수 있다.)  그러나 알고리즘이 제한된 저장 정보를 가지지는 않는다. 게다가 이 정보는 완전히 실행되지 전에 소거되어질 수도 있다.

따라서 K7 의 6개의정보 해석 작동 처리율 보다는 자유로운 저장 정보를 가진5개의 동작 처리처리율이 보다 합당할 것이다. P6 와 단순히 비교해 보면 P6 코어는 실제로 두 개의 마이크로 동작으로 저장 정보를 실행하기 때문에 클럭당 3개의 동작 처리율을 가질 것으로 생각된다 .따라서 P6 코어에 비해 상당히 개선되었다고 할 수 있다. 이는 코드에서 클럭당 단지 2개의 작동을 처리하며 저장정보가 더욱 제한되는 AMD RISC 86 동작과 비슷할 것이다.

이 점에서 본다면 Athlon에서 실행되는 명령어들은 완전히 파이프라인화된 명령어 유닛으로 작동하게 될 것이다. 따라서 사실상 Athlon은 5개의 명령어 출력 처리율을 가지게 될 것이며 Athlon은 다음과 같이 3가지 점에서 P6보다 우수하다고 할 수 있다.

(1) 클럭 당 부가적인 ALU (연산 논리 장치) 작동을 지원

(2) 실제로 클럭 당 최대 2개의 부가적인 동작을 수행

(3) 가장 중요한 사항으로 듀얼 로드 경우를 처리할 수 있다.(이는 P6 아키텍쳐의 읽기 대역폭의 두배임)

따라서 Athlon 이 광범위한 엔진을 가지고 있다는 점을 제외한다면 Athlon의 이전 모델인 K6 프로세서와 같이 명령어 해독기와 컴파일러의 목표 기계에 종속된 부분-후치(back end)이 매우 잘 균형을 이루고 있다고 말할 수 있다.

테크노아의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 미투데이 요즘 네이버 구글 msn 뒤로가기 위로가기
이 기사에 대한 댓글 이야기 (0)
자동등록방지용 코드를 입력하세요!   
확인
- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
이 기사에 대한 댓글 이야기 (0)
e피플
[e피플] 나이가 대수? 공조냉동기계기능사 필기시험 100점 맞은 NCS교육생
[e피플] 나이가 대수? 공조냉동기계기능사 필기시험 100점 맞은 NCS교육생
나이가 들면 들수록 공부하기가 어렵다는 말이 있다. 더군다나 실업인 상태에서 공부하는 것이라면 부담이 더 클 수 밖에 없다.하지만 이를 비웃듯이 극복하고, 올해 2월 공조냉동기능사...

제호 : 테크노아  |  발행인 : 김필규  |  편집인 : 김필규  |  청소년보호책임자 : 박상규
서울지사 : 서울특별시 구로구 디지털로32가길 18, 7F | 제보 : it@technoa.co.kr
발행소 : 전라북도 전주시 완산구 전룡6길 6 3F | 등록번호 : 전라북도 아00057
등록일자 : 2008년 1월 14일  |  대표전화 : 070-8755-6291  |  FAX : 02-6280-9562
Copyright © 1999-2017 테크노아. All rights reserved. mail to technoa@technoa.co.kr