테크노아
> 기획&벤치 > 강좌
펜티엄 4의 신기술 - 6. Netburst Technology (3)
테크노아  |  webmaster@technoa.co.kr
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2000.11.22  20:22:00
트위터 페이스북 미투데이 요즘 네이버 구글 msn


[강좌] 펜티엄 4의 신기술

6. Netburst Technology (3)


멀티미디어 처리명령의 강화 - SSE2(Streaming SIMD Extensions 2)

SSE 역시 우리에게 친숙하다. 바로 펜티엄 III 프로세서가 등장하면서 포함된 명령어셋이다. MMX, SSE, SSE2를 비롯하여 AMD의 3D Now!, Enhanced 3D Now!는 모두 같은 맥락에서 해석될 수 있다. 이들이 가지는 목적은 '클럭을 늘리지도, 그렇다고 더이상 IPC를 증대시키지도 못하는 상황에서 코어구조의 큰 변화를 수반하지 않고도 프로세서의 성능을 늘리기 위함'이다.

앞서 언급했던 프로세서 성능결정요인 중에서 '명령어당 처리할 수 있는 데이터의 개수'라는 부분이 있었다. 이들은 모두 이 부분에서의 향상을 가져오도록 만들어졌다. 아래의 일러스트를 보자.


SIMD 명령어셋이 데이터를 처리하는 과정의 모식도
각 원통은 하나의 명령어를, 보라색의 구체는 데이터를 의미한다.

SIMD는 'Single Instruction Multiple Data'의 약자이다. '단일 명령어에 다수의 데이터를 처리하는' 정도로 해석될 수 있다. 이들 명령어셋은 유사한 데이터를 묶어서 한번에 여러 데이터를 처리한다. MMX, SSE, SSE2, 3D Now!, Enhanced 3D Now!등이 가지는 차이점은 바로 얼마나 다양한 데이터를 SIMD 명령어로 처리하는가이다.

펜티엄 MMX에서 처음으로 적용되었던 MMX 테크놀러지가 57개를, 그리고 펜티엄 III 프로세서의 SSE가 여기에 70개의 SIMD 명령어셋을 새로이 추가하였다면, 펜티엄 4는 이 위에 144개의 새로운 SIMD 명령어셋을 추가하였다. 이러한 방대한 SIMD 명령어셋이 128bit의 정수연산 SIMD 유닛과 128bit의 배정도 부동소수점 연산 SIMD 유닛을 통해서 연산을 수행함으로써 펜티엄 4에 채용되어 있는 SSE2는 다양한 종류의 어플리케이션에서 광역적인 가속성능을 가지게 되었다.

프로세서와 메모리간의 병목현상 해소 - 400MHz의 FSB

펜티엄 III에서 RDRAM이 처음 채용되었으나 실질적으로 RDRAM은 펜티엄 III에 있어서는 재앙에 가까운 역할을 하였다. RDRAM이라는 메모리가 메모리 자체의 전송대역폭도 방대하며(PC800 RDRAM의 경우 1.6GB/s의 대역폭을 갖는다.) 효율면에서도 SDRAM보다 월등하지만 실질적으로 펜티엄 III와 함께 사용한 RDRAM은 SDRAM의 성능을 능가하지 못했다. 이것은 RDRAM의 성능이 과장되어서 선전되었다라기 보다는 전적으로 펜티엄 III 프로세서가 가지는 프로세서 버스의 대역폭이 지나치게 좁음으로 인해서 발생한 문제였다. i840 칩셋에서 듀얼채널 메모리 버스를 사용하면서 메모리 버스를 3.2GB/s라는 거대한 대역폭을 가지도록 향상시켰으나 정작 프로세서 자체의 전송대역폭은 800MB/s(FSB가 100MHz일 경우) 혹은 1,066MB/s(FSB가 133MHz일 경우)로 제한되어 있어서 시스템에서 가장 빠르다는 프로세서가 병목현상을 일으키는 주범으로 추락하는 엽기적인 현상이 만들어진 것이다. 그래서 아무리 RDRAM이 빠르고 메모리 대역폭이 좋다 한들 그 성능은 결국 아무리 빨라도 1,066MB/s로 제한되어 있었다.

펜티엄 4에서는 400MHz의 FSB를 채용함으로써 이러한 문제를 일소하였다.


i840 칩셋과 i850 칩셋에서의 메모리 대역폭 비교.
메모리 대역폭은 3,200MB/s로 같지만 프로세서가 받아줄 수 있는 한계는 큰 차이를 보인다.

400MHz의 FSB를 채용함으로써 프로세서와 칩셋간의 메모리 대역폭은 3,200MB/s로 대폭 향상되었고, 듀얼채널의 RDRAM이 뿜어내는 3,200MB/s의 메모리 대역폭과 정확히 균형을 맞추게 되었다. 이와 함께 프로세서의 내부 배율이 1.4GHz에서도 3.5로 크게 떨어지면서 프로세서의 성능을 최대한으로 발휘할 수 있는 전기가 마련된 것이다. 실제로 펜티엄 4의 성능을 보면 프로세서 자체의 성능은 그렇게 뛰어나지 않지만 메모리 부분의 압도적인 성능으로 인해서 전체적인 퍼포먼스는 매우 높아지는 것을 알 수 있다.

펜티엄 4 프로세서의 400MHz 대역폭은 실제로 400MHz로 동작하는 것이 아니라 100MHz의 버스를 QDR(Quadruple Data Rate) 방식을 사용해서 400MHz처럼 사용하는 것이다. AMD의 애슬론에 사용된 EV6 버스가 100MHz의 FSB를 사용하지만 이를 DDR(Double Data Rate) 방식을 사용해서 200MHz로 사용하는 것과 마찬가지 방식이라 하겠다. 이렇게 사용하는 이유는 400MHz의 클럭을 그대로 사용할 경우 메인보드의 설계가 매우 까다로워지기 때문인데, 지나치게 클럭이 높아지면 메인보드 자체의 안정성이 위험해지며, 이를 보완하기 위해서 복잡한 설계와 많은 층을 가지는 다층기판이 필수적이다. 그러나 이는 곧 원가의 상승과 직결되기 때문에 그러한 부담을 최대한 덜기 위해서 100MHz의 QDR을 사용한 것으로 보인다.

듀얼 채널의 메모리

펜티엄 III 프로세서에 사용되는 i840 칩셋 및 펜티엄 4에 사용되는 i850 칩셋은 RDRAM을 듀얼 채널로 사용한다. 여기서 듀얼 채널이라는 것은 2개의 메모리를 병렬로 사용한다는 것을 의미한다. 이러한 방법은 칩셋의 설계가 복잡해진다는 단점을 안고 있지만 현행의 메모리를 사용하여 2배의 메모리 대역폭을 바로 달성할 수 있다는 데에서 큰 잇점을 가진다. i840이나 i850 칩셋의 경우 1.6GB/s의 메모리 대역폭을 가지는 PC800 RDRAM을 듀얼채널로 구성하여 최대 3.2GB/s의 메모리 대역폭을 실현하고 있다.


싱글채널 메모리 구성과 듀얼채널 메모리 구성의 관계.
듀얼채널 쪽이 2배의 메모리 대역폭을 가진다.

테크노아의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 미투데이 요즘 네이버 구글 msn 뒤로가기 위로가기
이 기사에 대한 댓글 이야기 (0)
자동등록방지용 코드를 입력하세요!   
확인
- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
이 기사에 대한 댓글 이야기 (0)
e피플
[e피플] 나이가 대수? 공조냉동기계기능사 필기시험 100점 맞은 NCS교육생
[e피플] 나이가 대수? 공조냉동기계기능사 필기시험 100점 맞은 NCS교육생
나이가 들면 들수록 공부하기가 어렵다는 말이 있다. 더군다나 실업인 상태에서 공부하는 것이라면 부담이 더 클 수 밖에 없다.하지만 이를 비웃듯이 극복하고, 올해 2월 공조냉동기능사...

제호 : 테크노아  |  발행인 : 김필규  |  편집인 : 김필규  |  청소년보호책임자 : 박상규
서울지사 : 서울특별시 구로구 디지털로32가길 18, 7F | 제보 : it@technoa.co.kr
발행소 : 전라북도 전주시 완산구 전룡6길 6 3F | 등록번호 : 전라북도 아00057
등록일자 : 2008년 1월 14일  |  대표전화 : 070-8755-6291  |  FAX : 02-6280-9562
Copyright © 1999-2017 테크노아. All rights reserved. mail to technoa@technoa.co.kr