테크노아
> 기획&벤치 > 강좌
7세대 CPU 비교 - Athlon편
테크노아  |  webmaster@technoa.co.kr
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2000.03.21  20:50:00
트위터 페이스북 미투데이 요즘 네이버 구글 msn

Floating Point -부동 소수점 연산

Athlon 의 부동소수점 능력에 대해서는 많은 말들이 오고 갔다. 특히 최근 AMD 와 치열한 경쟁 상태에 있는 인텔의 x86 이 부동 소수점 연산에서 열세를 면치 못하고 있는 점을 감안하면 Athlon 특징에서 가장 큰 관심을 끄는 것은 단연 부동 소수점연산일 것이다.

AMD의 부동 소수점 연산 능력이 기대치에 부응을 하지 못하게 되면 모니터에 표현되는 퀘이크의 프레임 수치가 모니터의 리프레시 레이트에 최적화 되어 있다는 사실을 부정하는 정신 이상자들의 반발을 감수해야했지만 AMD는 이에 부응할 수 있는 부동소수점 연산능력을 개발했다.

완전한 파이프라인화에 더해 (P6 은 멀티플라이를 수행할 때만 부분적으로 파이프라인화 됨) AMD는 수퍼스켈러 FPU를 만들수 있는 배짱을 가지고 있었던 것이었다.  필자는  매우 비효율적이었던 x87 명령어 세트를 감안하면 클럭 당 하나 이상의 부동 소수점 연산을 실행한다는 것은 불가능하리라고 생각했으나 클럭당 하나 이상의 부동 소수점 연산의 가능성을 보고 흥분을 감출 수가 없었다.

Athlon 아키텍쳐에서 FPU 용으로 3가지 방식의( FADD, FMUL, FSTORE) 파이프라인이 있으며 이중 "FSTORE" 는 그다지 중요하다고 생각되지 않는다. 따라서 유일한 의문사항은 FXCH 가 얼마나 빠른게 작동할 것인가 하는 것이다. 그러나 필자는 개인적으로 K7 에서 FXCH를 사용하는 것은 중요하지 않다고 생각한다.

Athlon 은 ALU를 결합하고 고성능으로 명령어를 로드할 수 있는 능력이 있기 때문에, 부동소수점 명령에서의 방대한 메모리 피연산함수의 사용은 인텔이 추천한 방법보다 더 우수하다고 볼 수 있다.

필자는 이 방법을 사용해서 실행을 하였으며, 하나의 부동 소수점 연산 테스트는 Athlon 이 P6 의 부동소수점 연산보다 실제로 상당히 빠르다는 사실을 확인시켜 주었다.  필자의 테스트에서는 50% 가 빠르다는 결과가 나왔으며 Athlon FPU 에 익숙해 질수록 이  수치는 높아질 것이라고 생각된다.

이점에도 불구하고 FPU 파이프라인의 최초 두 단계는 스택 리네이밍과 내부 레지스터의 리네이밍 단계이다. 레지스터 리네이밍 단계는 FXCH (이는 스택을 레지스터 파일처럼 처리하는 것을 도움 ) 가 매우 높은 대역폭으로 실행될 때 필요한 단계이다. 이로서 필자는 FXCH 가 실로 빠를 것이라는 가정을 할 수 있었다.

Cache - 캐시

현재 Athlon 의 캐시는 128 KB 이다. (알파 21264 와 같이 2-way, harvard 아키텍쳐-코드용과 데이터용의 별도의 주소 버스가 있는 프로세서 아키텍쳐) Athlon에는 최근 인텔이 제공하는 L1 cache 의 4배에 해당하는 캐시가 탑재된다. 필자는 왜  인텔이 AMD의 간단한 디자인 선택에 그렇게 쉽게 당하는지 이해가 되지 않는다.

데이타를 읽어들이는 파이프라인에서 K6 에서는 2 사이클 레턴시였는데 Athlon에서는 3 사이클로 증가했다.  이는 L1 캐시로의 3 사이클 엑세스 시간을 갖는 P6 와 동일하다고 볼 수 있다. ( 그러나 Athlon이 클럭당 2개의 데이타를 읽어 들인다는 것은 K6 나 P6 에 비해 2배로 빠르게 작동한다는 의미이다)

Athlon은 44개의 엔트리 로드 및 저장 대기행렬을 (load/store queue)를 가지고 있다.  이는 많은 뛰어난 메모리 작용을 지원받아야 할 것으로 보인다.

비록 Athlon 이 PCB에 장착된 512KB L2 캐시로 출발했다고 해도 AMD는 8 MB로 캐시를 추가 장착할 수 있다고 밝히고 있다. 이러한 사실은 인텔의 Xeon 에게 Athlon으로 정면 도전하겠다는 AMD의 의도를 보여주고 있다. Athlon 버스는 PCB 기판과 분리되어 있기 때문에 (이는 사실상 컴펙과 알파팀이 21264용으로 제조한 것임 ) 20개의 뛰어난 트랜색션을 지원할 수 있다.

Other - 다른 사항들

Athlon의 시스템 버스의 속도는 200 Mhz이며 EV6 버스 아키텍처를 사용한다. 이는 실제로 알파21264 에 사용된 버스와 동일하다. 그러나, 메모리 버스의 속도는 아직도 현재의 100Mhz PC100 메모리 기술에 의해 제약을 받는다. 하지만, 앞으로 미래의 고성능 메모리의 지원이 있을 것이라 생각된다.( PC 133 메모리는 한 발짝 물러서야 할 것으로 보인다.) 하여간 이는 CPU 가 데이타를 인식하는 것과는 무관하게(실제로 중요한 문제는 아님) 최근 P6 버스의 100Mhz 보다 훨씬 빨리 데이타를 칩셋에 전달할 수 있을 것이다.

개별적으로 확인된 테스트에 따르면 루프 명령-반복적으로 순환되는 명령어-(LOOP instruction )은 느리다. 필자는 이렇게 명령어가 느린 이유로 길게 설계된 파이프라인 아키텍쳐 때문은 아니라고 생각한다. 필자는 단지 AMD가 예전의 타이밍 루프을 처리하는데 지쳤다고 생각한다. 사람들은 이 명령어를 486에서와 같이 완벽한 속도로 작동하기를 기대하고 작성했다. AMD 에게 다행인 것은 동일한 실행속도로 DEC/JNZ 명령어를 실행하기 위해서 표준 루프 명령어 디코드 대역폭이 있을 것이기 때문에 이점은 문제가 되지 않는다고 생각된다.

Optimization - 최적화

AMD에서 제공하는 Athlon 최적화 지침은 하나의 걸작이라고 볼 수 있다. 최적화에 대한 정보를 제공하는데 있어 훌륭한 마이크로 아키텍쳐의 설명이 되어 있으며 실제적인 접근방식을 취하고 있다. 여기에는 기본적으로 피해야 할 몇 가지 함정이 있다. 이 함정은명령어 해독 대역폭에 대해 걱정할 필요가 없는 잇점에 대해 상쇄 가치가 있다.

이는 높고 낮은 수준의 수 많은 최적화 사항뿐 아니라 64 비트 아키텍쳐(이는 매우 긴 데이터 형태를 지원한 C++ 컴파일러에서 문제가 된 바 있음) 에 대한  간단한 설명과 함께 나오게 된다.  이러한 권고사항은 뛰어난 통찰력을 자랑하고 있다. 이는 애슬론 프로세서의 훌륭한 프로그래밍 최적화 아이디어를 줄 뿐  아니라  애슬론의 탁월한 기능을 확인시켜 줄 것이다.

차세대 프로세서 관심이 있는 사람들은 애슬론 최적화 가이드를 참고 하면 좋을 듯 싶다.

Athlon 최적화 가이드 다운로드 받기

마치며.... - 핵심요점

AMD는 일전에 0.18 미크론 공정 기술과 구리배선 기술 (모토롤라와의 전략적 제휴에서 획득한 기술 )을 조합해서 이에 기반한 차세대 Athlon을 제작할 것이라는 의도를 내비친 적이 있다.  필자는 하드웨어 제작자가 아니며 따라서 이 기술의 정확한 실체는 모른다. 하지만  이는 고속 클럭으로의 전이를 가능케 하는 하나의 방편이 될 선두적이고 우세한 프로세서 기술이라는 확신이 선다. (놀랍게도 인텔은 초기 0.18 미크론 공정에서 구리배선으로 전이하지 않을 것이라고 한다.)

결론적으로, 이전 세대 프로세서 특징과 비교해 볼 때  Athlon은 많은 부분에서 제 7세대 프로세서 특징을 가지고 있으며 이젠 제7세대 프로세서라고 인정해도 되지 않을까 싶다. 또한 Athlon의 모든 벤치마크가 단연 현재의 P6를 능가하는 수많은 리뷰가 발표되었으며 Athlon은 확실히 7세대 컴퓨터임에 틀림이 없다. 그렇다고 독자들도 같은 생각을 하기를 바라는 것은 아니지만....

P6 와의 비교해 보면 Athlon은 대부분 P6 보다 크고 빠르며 따라서 뛰어나다고 할 수 있다.  Athlon 은 코드 tweak 에서부터 철저하게 P6 아키텍쳐를 능가한다.  아키텍쳐면에서 보면, Athlon은 적어도 P6 와 같이 효과적으로 x86 코드를 최적화 시킨 모든 조합을 실행할 수 있을 것이며 Athlon용으로 특별히 최적화된 코드는 K6 의 성능을 충분히 앞설 것으로 보인다.

알파 21264 와의 비교에서는 순수한 CPU의 기술적인 관점에서 보면, 이 둘은 구분하기 힘들 정도로 유사하다.  이 둘 모두 비교하기 힘들 정도로 필적할 만한 특징을 가지고 있다.  그러나 공식적으로는 결국 21264 가 왕좌의 자리를 차지한다고 볼 수 있을 것이다. 이 알파 프로세서는 컴팩이 자체적으로 개발한 컴파일러의 장점을 가지고 있으며, 64bit 이다. 알파 프로세서는 훨씬 명확한 부동 소수점 명령어 세트아키텍쳐를 가지고 있으며 매우 고가인 하이 엔드 사용자를 대상으로 한다. AMD는 인텔에 의해 규정된 32bit 명령어 세트와  인텔 칩셋 용으로 최적화한 규칙에 따른 소프트웨어를 고수하고 있다.

Athlon이 알파 21264에 유일하게 앞서는 점은 첨가된 새로운 명령어 이외에 MMX 와 3DNow 명령어 세트를 가지고 있다는 것이며 이로 인해 Athlon은 멀티미디어에서 장점을 가지게 된다.

이에 불구하고 x86과 호환가능하고 이와 매우 유사한 Athlon의 출현은 매우 놀랄 만한 것이라고 생각되며 알파 21264 성능에 필적하는 기술 개발은 AMD가 도달해야 할 목표라고 할 수 있을 것이다.

다음 시간에는 인텔의 Willamette와 Transmeta사의 프로세서에 대해 논해보기로 하자.

테크노아의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 미투데이 요즘 네이버 구글 msn 뒤로가기 위로가기
이 기사에 대한 댓글 이야기 (0)
자동등록방지용 코드를 입력하세요!   
확인
- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
이 기사에 대한 댓글 이야기 (0)
e피플
[e피플] 나이가 대수? 공조냉동기계기능사 필기시험 100점 맞은 NCS교육생
[e피플] 나이가 대수? 공조냉동기계기능사 필기시험 100점 맞은 NCS교육생
나이가 들면 들수록 공부하기가 어렵다는 말이 있다. 더군다나 실업인 상태에서 공부하는 것이라면 부담이 더 클 수 밖에 없다.하지만 이를 비웃듯이 극복하고, 올해 2월 공조냉동기능사...

제호 : 테크노아  |  발행인 : 김필규  |  편집인 : 김필규  |  청소년보호책임자 : 박상규
서울지사 : 서울특별시 구로구 디지털로32가길 18, 7F | 제보 : it@technoa.co.kr
발행소 : 전라북도 전주시 완산구 전룡6길 6 3F | 등록번호 : 전라북도 아00057
등록일자 : 2008년 1월 14일  |  대표전화 : 070-8755-6291  |  FAX : 02-6280-9562
Copyright © 1999-2017 테크노아. All rights reserved. mail to technoa@technoa.co.kr