잘못된 정보가 있다면, 꼭 댓글로 알려주세요(비로그인 익명도 가능).

여러분의 피드백이 저와 방문자 모두를 올바른 정보로 인도할 수 있습니다.

감사합니다. -현록

후원해주실 분은 여기로→

현록의 기록저장소

컴퓨터 구조 및 설계 - Chapter 2. Instructions: Language of the Computer 본문

Study/Computer Science

컴퓨터 구조 및 설계 - Chapter 2. Instructions: Language of the Computer

현록 2019. 11. 30. 11:04

Chapter 2. Instructions: Language of the Computer

ㆍInstructions를 이해할 수 있다.

2.1 - Introduction

2.2 - Operations of the Computer Hardware

2.3 - Operands of the Computer Hardware

2.4 - Signed and Unsigned Numbers

2.5 - Representing Instructions in the Computer

2.6 - Logical Operations

2.7 - Instructions for Making Decisions

2.8 - Supporting Procedures in Computer Hardware

2.9 - Communicating with People

2.10 - MIPS Addressing for 32-Bit Immediates and Addresses

2.11 - Parallelism and Instructions: Synchronization

2.12 - Translating and Starting a Program

2.13 - A C Sort Example to Put It All Together

2.14 - Arrays versus Pointers

2.15 - Advanced Material: Compiling C and Interpreting Java

2.16 - Real Stuff: ARMv7 (32-bit) Instructions

2.17 - Real Stuff: x86 Instructions

2.18 - Real Stuff: ARMv8 (64-bit) Instructions

2.19 - Fallacies and Pitfalls

2.20 - Concluding Remarks

(목차를 블록 선택 후, Ctrl+F로 탐색 가능 - 브라우저에 따라 다를 수 있음)

 


<2.1 - Introduction>

 

 

 

Instructions Set

명령어 집합

 

*컴퓨터에서 사용되는 instruction(명령, 작업)의 레퍼토리(순서를 가진 목록)

 

*다른 컴퓨터는 다른 instruction set을 가짐

 ㆍ그래도 대부분 공통된 특성을 가지고 있음

 

*초기 컴퓨터는 아주 단순한 instruction set을 가졌었음

 ㆍSimplefied implementation

 

*많은 현대의 컴퓨터들도 단순한 instructions set을 가지고 있음

 ㆍ초창기에 단순했고, 복잡해지다가, 다시 단순해지는.

  복잡했던(Complex IS) 시기가 있었음.

 

Instruction Set Architecture (ISA)

명령어 집합 구조

https://ko.wikipedia.org/wiki/%EB%AA%85%EB%A0%B9%EC%96%B4_%EC%A7%91%ED%95%A9

https://en.wikipedia.org/wiki/Instruction_set_architecture

 

*ISA(또는 간단히 architecture)란, hardware와 저레벨 software(system software, 운영체제)간의 추상적인 인터페이스로,

 instruction, register, memory access, I/O 등을 포함한

 기계어 프로그램을 작성하기 위해 필요한 모든 정보를 일컫는다.

 이런 필요한 정보들을 모아 hardware에 주면, hardware가 이것을 실행.

 ㆍ다양한 비용 및 성능을 가진 머신에서 동일한 software를 구동하는 것을 가능하게 함

 

*기본 ISA와 운영체제 인터페이스를 합쳐서 the application binary interface(ABI)라고도 부른다.

 ㆍ유저 입장에서 중요한데,

  어떤 프로그램이 특정 머신에서 실행이 가능할 때(e.g., ISA - Intel CPU, OS - Windows),

  ABI가 같다면 이 머신에서도 실행이 가능하다는 것.

 ㆍABI는 다양한 컴퓨터에 binary 이식성을 위한 기준으로 정의된다.

  유저층의 IS와 운영체제 인터페이스는 application 프로그래머에게 사용된다.

 

 

 

The MIPS Instruction Set

※MIPS = Millions Instructions Per Second

 

*Stanford MIPS는 MIPS Technologies에 의해 상용화되었다. (www.mips.com)

 ㆍMIPS는 CPU 이름이기도 함, 여기에서 상용화ㅇㅇ

  이 CPU에서 사용되는 ISA를 볼 것임.

 

*embedded core 시장에서 높은 점유율

 ㆍ가전기기, 네트워크/저장 장치, 카메라, 프린터 등에 사용됨

 ㆍ최근에는 ARM이라는 CPU도 많이 쓰이지만.. 여튼 임베디드 시스템에서 높은 점유율ㅇㅇ

 

*전형적인 현대의 ISA들과 비슷한 특성들을 공유함

 ㆍMIPS 참조 자료의 별책이나, Appendix B, E를 보자

 


<2.2 - Operations of the Computer Hardware>

 

 

 

Arithmetic Operations

산술

 

*덧셈과 뺄셈 - 삼항연산

 ㆍ2개의 source와 하나의 destination

  [Assembly] ADD a, b, c (a에 b+c의 값을 저장)

 

*모든 산술 operation들은 이와 같은 형태를 지님

 

*설계 원칙 1: Simplicity favors regularity.

 간결성(simplicity)는 규칙성(regularity)을 선호한다. 규칙성을 이용하여 간결하게 만든다.

 ㆍ규칙성(regularity)은 구현을 수월하게(간결하게) 해 줌.

 ㆍ간결성(simplicity)은 저 cost에서도 성능을 높일 수 있도록 해 줌.

  간단하게 만들어야 낮은 가격의 머신에서도 높은 성능을 이끌어낼 수 있음.

 

Arithmetic 예제

 

ㆍC Code:

 f = (g + h) - (i + j);

 

ㆍCompiled MIPS code:

 add t0, g, h   # temp t0 = g + h;

 add t1, i, j   # temp t1 = i + j;

 sub f, t0, t1   # f = t0 - t1;

 (※ t0, t1은 레지스터)

 (이해를 돕기 위해 변수를 그대로 사용한 것이지, 모든 연산은 레지스터에 들어간 값들로 이루어짐)

 


<2.3 - Operands of the Computer Hardware>

 

 

 

Register Operands

 

*산술 instruction들은 register operand를 사용한다.

 (레지스터를 연산처리기로 사용한다는 뜻)

 

*MIPS는 32개의 32-bit register 파일을 갖는다.

 ㆍ자주 접근하는 데이터를 위한 고속의 저장소

 ㆍ0~31까지 번호로 매겨짐

 ㆍ32-bit 데이터는 한 "word"로 불림. 32-bit 데이터의 단위이기도 함.

 

*Assembler 이름들

 ㆍ임시값(temporary values)에 사용되는 것으로,

  $t0, $t1, ..., $t9 라는 이름을 사용하는 레지스터.

 ㆍ저장된 변수들(saved variables)에 사용되는 것으로,

  $s0, $s1, ..., $s7 이라는 이름을 사용하는 레지스터.

 

*설계 원칙 2: Smaller is faster. 작을 수록 빠르다. 

 ㆍc.f. 메인 메모리: 수백만개의 구역을 가짐

  하지만, 레지스터는 32-bit가 32개일 뿐인 굉장히 작은 저장소.

  용량이 적은 초고속의 메모리.

 

Register Operand 예제

 

*C Code:

 f = (g + h) - (i + j);

 ㆍf, ..., j는 $s0, ..., $s4에 담겨질 것임(mapping 되어있음)

 

*Compiled MIPS code:

 add $t0, $s1, $s2   # temp t0 = g + h;

 add $t1, $s3, $s4   # temp t1 = i + j;

 sub $s0, $t0, $t1    # f = t0 - t1;

 

 

 

Byte Addresses

 

*Byte(8-bit)는 매우 유용하므로, 많은 아키텍처들은 메모리에서 byte 단위를 사용한다. (주소의 단위는 byte이다.)

 ㆍAilgnment(정렬) 제한 - 32-bit 프로세서에서 메모리 주소들은 word(32bit = 4byte) 단위로 묶여진다.(MIPS-32에서도 4개씩)

  32-bit 프로세서는 기본 access 단위가 32bit=4byte=1word.

Big Endian: 가장 왼쪽 byte가 word address이다.

 

 ㆍIBM 360/370, Motorola 68k, MIPS, Sparc, HP PA

Little Endian: 가장 오른쪽 byte가 word address이다.

 

 ㆍIntel 80x86, DEC Vax, DEC Alpha (Windows NT)

주소증가방향→ little endian bytes
lsb 0x0D 0x0C 0x0B 0x0A msb
           
msb 0x0A 0x0B 0x0C 0x0D lsb
big endian bytes

little endian은 그대로(작은 곳에 작은 자릿수),

big endian은 뒤집혀서(작은 곳에 큰 자릿수) 저장.

32bit의 데이터를 32bit 메모리 공간에 어떻게 저장할 것인가라는 것이 endian.

※MSB(Most Significant Bit): 가장 큰 자릿 수의 비트, 가장 왼쪽의 비트.

 LSB(Least Significant Bit): 가장 작은 자릿 수의 비트, 가장 오른쪽의 비트.

 

 

 

Memory Operands

 

*메인 메모리는 복합 데이터를 다룸.

 ㆍ배열, 구조체, 동적 데이터, ...

 

*산술 연산을 하려면,

 ㆍ메모리에서 레지스터로 값을 적재시켜야 함

 ㆍ연산 결과는 레지스터에서 다시 메모리로 가져옴

 

*메모리는 byte단위로 접근함

 ㆍ주소 한 칸은 byte(8-bit)로 이루어짐

 

*word 단위로 메모리에 정렬됨

 ㆍ주소들은 4개 단위(word=4byte=32bit)로 묶여짐

 

*MIPS는 Big Endian

 ㆍMost-significant Byte(가장 큰 자릿 수(왼쪽)의 바이트)가 word(4byte)의 least address(가장 작은 자리(오른쪽)의 주소)에 위치함. 즉, byte 단위로 뒤집혀서 들어감.

 ㆍc.f., Little Endian: least-significant byte가 least address에. 그대로.

 

Memory Operand 예제 1

 

ㆁC code:

 g = h + A[8];

 *g는 $s1에, h는 $s2에, A의 base address는 $s3에.

 

ㆁCompiled MIPS code:

 *index 8은 32(4*8 ← 0,4,8,12,16,20,24,28,32)의 offset을 필요로 함.

  ㆍword는 4byte.

 lw $t0, 32($s3)  # load word (메모리($s3)에 담긴 주소(+32)를 이용하여 한 word만큼의 데이터를 $t0에 로드)

 add $s1, $s2, $t0

      │ └ base register

      └ offset

 

Memory Operand 예제 2

 

ㆁC code:

 A[12] = h + A[8];

 *h는 $s2에, A의 base address는 $s3에.

 

ㆁCompiled MIPS code:

 *index 8은 32(4*8 ← 0,4,8,12,16,20,24,28,32)의 offset을 필요로 함.

 lw   $t0, 32($s3) # load word

 add $t0, $s2, $t0

 sw   $t0, 48($s3) # store word ($t0에 있는 한 word만큼의 데이터를 메모리($s3)에 담긴 주소(+48)에 저장)

 

 

 

Register vs. Memory

 

*메모리에 직접 접근하는 것보다 레지스터에 접근하는 것이 훨씬 빠름

 

*메모리의 데이터를 (레지스터에서) 이용하기 위해

 레지스터에 데이터를 불러오고(load) 다시 메모리에 저장하는(store) 방법을 이용한다. Load-Store Architecture

 ※ MIPS는 Load-Store Architecture이다.

 ㆍLoad와 Store를 반복하므로, 많은 instruction들이 수행된다.

 

*컴파일러는 가능한 변수들을 레지스터를 활용하여 처리해야 한다.

 ㆍ변수 처리를 위해 메모리에 접근하는 일을 덜 빈번하도록.

 ㆍ레지스터 최적화는 매우 중요하다!

  가능한 메모리에 접근하는 횟수를 줄여서 Load와 Store instruction을 적게 할 수 있도록.

 

 

 

MIPS Register File

ㆁ32개의 32-bit 레지스터들을 갖는다. 이 레지스터 집합에는,

 *2개의 read 포트 (src1 addr, src2 addr)

 *1개의 write 포트 (dst addr)

  32개의 레지스터 주소(0~31)를 위한 것이므로, 각각 5bit(2^5-1=31)만 담을 수 있어도 충분.

 

ㆁ레지스터는,

 *메인메모리보다 빠르다

  ㆍ하지만 구성되는 레지스터 수가 많을 수록 속도는 느리다.

  ㆍ(e.g., 64개의 레지스터 집합이 32개의 레지스터 집합보다 50% 이상 느릴 수 있다)

  ㆍread/write 포트의 증가는 속도에 2차 함수적인 영향을 준다. (정비례가 아니라, ^2)

 *컴파일러가 쓰기에 더 용이하다

  ㆍe.g., (A*B) ~ (C*D) ~ (E*F) 어느 순서로든 연산할 수 있다. (스택에 비해)

 *변수를 저장할 수 있다

  ㆍ코드의 밀도를 향상시킨다. (레지스터는 메모리보다 적은 비트 수로 불리기 때문에(5bits<32bits))

 

MIPS Register Convention

번호 이름 용도 호출 중에 값이 변하지 않는지
0 $zero 항상 0 (hardware) n.a. (해당없음)
1 $at 어셈블러만 사용하도록 예약된. (프로그래머는 X) n.a.
2~3 $v0~$v1 반환값 (서브루틴. 함수호출) no
4~7 $a0~$a3 argument(매개값) (서브루틴. 함수호출) yes
8~15 $t0~$t7 임시 값들 (rvalue) no
16~23 $s0~$s7 저장되는 용도의 값 (변수, lvalue) yes
24~25 $t8~$t9 임시 값들 (rvalue) no
26~27 $k0~$k1 OS 커널만 사용하도록 예약된. no
28 $gp global 포인터 yes
29 $sp stack 포인터 yes
30 $fp frame 포인터 yes
31 $ra 반환 주소 (hardware) yes

 

 

 

Immediate Operands

즉각 연산(변수가 아닌 상수로 바로)

 

*instruction에 상수(constant data)를 사용함

 addi $s3, $s3, 4

 ※ 앞서 본 산술 연산에서는 피연산자든 결과 저장이든 모두 변수였으나, 계산에 상수가 포함되는 연산.

 

*immediate instruction에 감산(subtract, 뺄셈)은 지원하지 않음

 ㆍ그러므로 덧셈(add)에 음수(-)값을 사용

  addi $s2, $s1, -1

 

*설계 원칙 3: 일반적인 경우(자주 사용되는 경로)를 빠르게 해라

 ㆍ작은 수의 상수(e.g., 0, 1, -1 등)는 프로그래밍에서 자주 사용됨

  큰 수는 덜 자주 사용됨. immediate operand가 지원되면 작은 값은 상수로 바로 사용 가능.

 ㆍ즉, immediate operand는 load instruction을 줄여줌. (더 빠르게 동작하도록 해줌)

 

 

 

The Constant Zero

 

*MIPS 레지스터의 0번 레지스터($zero)는 항상 0이다.

 ㆍ값을 변경할 수 없는 고정된 상수. 읽기만 가능한 레지스터.

 

*많은 작업들에 유용함

 ㆍe.g., 레지스터간의 이동

  add $t2, $s1, $zero

  $s1의 값을 그대로(0을 더해봤자) $t2에 임시로 저장. 값 복사.

 

 

 

잠깐 복습, Application Binary Interface(ABI)의 정의는?

 

ㆍThe user portion of the instruction set(IS) plus the operating system interfaces used by application programmers.

ㆍISA와 운영체제 인터페이스를 합쳐서 the application binary interface(ABI)라고도 부른다.

ㆍABI가 같다면 같은 프로그램을 실행할 수 있는 머신.

 


<2.4 - Signed and Unsigned Numbers>

 

 

 

Unsigned Binary Integers

부호 없는 이진 정수

 

*n-bit 수들의 합으로 이루어짐(2의 n승의 수들의 합)

*범위: 0 ~ 2^n - 1

 (8비트면 8칸인데, 0부터 시작하므로, MSB는 2^7의 여부(0or1)를 표현함.

  2^7부터 2^0까지 모두 1이라면, 11111111인데, 2^8에서 1을 뺀 수와 같음

  (1만 더해도 자릿수가 오르면서 2^8이 될테니. 칸만 된다면.)

  그러므로 최대 표현 가능한 수는 2^n - 1.)

*예시

  = 0 + ... + 1*2^3 + 0*2^2 + 1*2^1 + 1*2^0

  = 0 + ... + 8 + 0 + 2 + 1 = 11_10

*32비트라면,

 ㆍ0 ~ 4,294,967,295

 

 

 

2-s Component Signed Integers

2의 보수 방식의 부호 있는 정수 표현

 

*역시 n-bit 수들의 합으로 이루어짐 (이번엔 가장 큰 단위는 음수로. MSB가 부호의 역할)

*범위: -2^(n-1) ~ 2^(n-1) - 1

 MSB가 가장 큰 자리의 음수를 표현할 수 있고,

 나머지 비트들이 1로 모두 가득 차봐야 MSB를 상쇄하지 못하고 -1이 됨.

 (MSB가 1이면 무조건 음수라고 보면 됨)

 그러므로 가장 작은 수는 1000...000 비트인 -2^(n-1)이 되고,

 가장 큰 수는 0111...111 비트인 2^(n-1) - 1이 될 것.

 (unsigned 표현에서는 MSB도 양수이므로 최댓값이 2^n - 1이었던 것에 비해 이진 자릿수가 한 칸 내려감)

*예시

  = -1*2^31 + 1*2^30 + ... + 1*2^3 + 1*2^2 + 0*2^1 + 0*2^0

  = -2,147,483,648 + 2,147,483,644 = -4_10

*32비트라면,

 ㆍ-2,147,483,648 ~ 2,147,483,647

*31비트(MSB)는 부호 비트

 (위의 범위에서 설명)

 ㆍ1이면 음수

 ㆍ0이면 음수가 아님(0이거나 양수)

*-(-2^(n-1)), 즉, 양의 2^(n-1)은 표현 불가능

*음수가 아닌(MSB가 0인) 수는 unsigned 표현과 비트 표현이 동일하다

*몇몇 수들의 비트 표현

 ㆍ 0:       0000 0000 ... 0000

 ㆍ-1:        1111 1111 ... 1111

 ㆍMost-negative: 1000 0000 ... 0000

 ㆍMost-positive:  0111 1111 ... 1111

 

 

 

Signed Negation

부호 반전(양을 음으로, 음을 양으로. *-1)

 

*보수(complement)를 취하고, 1을 더한다

 ㆍ2의 보수란, 1은 0으로, 0은 1로.

 x = 1001001 이라면, 보수는 0110110.

 기존 수와 보수의 합은 항상 111...111_2.

 

*예제: 2를 음수로(-2로)

 ㆍ 2= 0000 0000 ... 0010_2

 ㆍ-2= 1111 1111 ... 1101_2 + 1

   = 1111 1111 ... 1110_2

 

 

 

Sign Extension

수의 비트 범위 확장(8-bit에서 더 큰 16-bit 등..)

 

*같은 수를 더 많은 비트를 이용하여 표현

 ㆍ값(수학적 의미)은 보존시키면서. (지금은 정수표현에 대해서 보고 있음)

※ MIPS에서의 Instruction set

 ㆍaddi: immediate value를 늘림

 ㆍlb, lh: loaded byte/halfword를 늘림

 ㆍbeq, bne: displacement를 늘림

*부호 비트와 같은 값을 왼쪽으로 늘려주면 됨

 ㆍc.f., unsigned 값: 0을 늘리면 됨

*예시: 8-bit에서 16-bit로

 ㆍ 2: 0000 0010 → 0000 0000 0000 0010

 ㆍ-2: 1111 1110 → 1111 1111 1111 1110

 


<2.5 - Representing Instructions in the Computer>

 

 

 

Representing Instruction

 

*Instruction들은 binary로 인코딩된다.

 ㆍ이 binary 코드들은 기계어(machine code)라고 불린다.

 

*MIPS instructions

 ㆍ32-bit의 word로 인코딩된다

 ㆍ적은 종류의 포맷(규칙)으로 되어 있다 - operation code(opcode), register number, ...

 ㆍ정격성(규칙성)을 갖는다

 

*레지스터 번호

 ㆍ$t0 ~ $t7은 레지스터 번호가 8~15이다.

 ㆍ$t8 ~ $t9는 레지스터 번호가 24~25이다.

 ㆍ$s0 ~ $s7은 레지스터 번호가 16~23이다.

 

 

 

MIPS R-format Instructions

R-format. 산술 연산

op rs rt rd shamt funct
6 bits 5 bits 5 bits 5 bits 5 bits 6 bits

*Instruction 필드(영역)

 ㆍop: operation code(opcode) (어떤 종류의 연산을 할지)

 ㆍrs: first source(source) register number (피연산자1이 들어있는 레지스터 번호)

 ㆍrt: second source(target) register number (피연산자2가 들어있는 레지스터 번호)

 ㆍrd: destination register number (연산결과가 담길 레지스터 번호)

 ㆍshamt: shift amount (00000 for now)

 ㆍfunct: function code (extends opcode) (opcode와 함께 어떤 종류의 연산을 할지)

 

add $t0, $s1, $s2

special $s1 $s2 $t0 0 add
0 17 18 8 0 32
000000 10001 10010 01000 00000 100000

00000010001100100100000000100000_2 = 02324020_16

 

 

 

Hexadecimal

16진수

 

*16진법

 ㆍbit를 좀 더 압축적으로

 ㆍ앞에 0x를 붙이면(0xFF) 16진수 표현, 0b를 붙이면(0b11) 2진수 표현.

binary hexadecimal binary hexadecimal
0 0000 0 8 1000 8
1 0001 1 9 1001 9
2 0010 2 10 1010 A
3 0011 3 11 1011 B
4 0100 4 12 1100 C
5 0101 5 13 1101 D
6 0110 6 14 1110 E
7 0111 7 15 1111 F

*예시: eca8 6420

 ㆍ1110 1100 1010 1000 0110 0100 0010 0000

 

 

 

MIPS I-format Instructions

I-format.

op rs rt constant or address
6 bits 5 bits 5 bits 16 bits

*Immediate arithmetic과 load/store instructions에 이용되는 포맷

 ㆍrt: destination(목적지) 혹은 source2(피연산자2) 레지스터 번호

 ㆍconstant: -2^15 ~ 2^15 - 1 의 수를 표현 가능

 ㆍaddress: rs에 담긴 base address로부터 얼마나 멀리있는지(offset)

 

*설계 원칙 4: 좋은 설계는 좋은 타협을 필요로 한다.

 ㆍImmediate arithmetic과 load/store instruction은 다른 종류의 작업이지만,

  I-format으로 모두 표현할 수 있다.

 ㆍ다른 종류의 작업들을 한 포맷으로 표현하면 decode(복호화, 비트코드를 명령으로 인식)하는 것을 어렵게 만들지만,

  32-bit instruction들을 균일하도록 해준다.

 ㆍ가능한 포맷이 적도록 같은 크기로 표현 가능한 작업들을 묶어야 한다. 고성능을 위해.

 

 

 

Stored Program Computers

*instruction들은 binary로 표현된다. 마치 data처럼.

*instruction들과 data들은 메모리에 적재(store)된다.

*프로그램들은 다른 프로그램 위에서 동작하기도 한다.

 ㆍe.g., 컴파일러, 링커, ...

*Binary compatibility(binary 일치성)은 컴파일된 프로그램들이 다른 컴퓨터에서도 작동하도록 해준다.

 ㆍStandardized ISAs (정규화된 ISA)

 


<2.6 - Logical Operations>

 

 

 

Logical Operations

논리 연산

 

*bit단위 조작을 위한 instruction

Operation C Java MIPS
왼쪽으로 Shift << << sll
오른쪽으로 Shift >> >>> srl
Bit단위 AND & & and, andi
Bit단위 OR | | or, ori
Bit단위 NOT ~ ~ nor

*word(32bit의 비트집합)에서 비트그룹을 추출하거나 새로 집어넣는데 유용

 

 

 

Shift Operations

(MIPS R-format Instruction)

op rs rt rd shamt funct
6 bits 5 bits 5 bits 5 bits 5 bits 6 bits

*shamt: 몇 칸이나 shift할 것인가

*왼쪽으로 Shift

 ㆍ전체 비트가 왼쪽으로 이동하며, 오른쪽의 빈 공간들은 0으로 채워짐.

 ㆍMIPS instruction에서 sll로 표현

 ㆍi비트만큼 왼쪽으로 shift한 것은, 2^i만큼 곱한 것과 같음.(정수 표현에서)

*오른쪽으로 Shift

 ㆍ전체 비트가 오른쪽으로 이동하며, 왼쪽의 빈 공간들은 0으로 채워짐.

 ㆍMIPS instruction에서 srl로 표현

 ㆍi비트만큼 오른쪽으로 shift한 것은, 2^i만큼 나눈 것과 같음.(부호없는 정수 표현에서)

  (부호있는 정수표현에서 MSB가 무조건 0이되므로 음의 여부도 달라질 수 있음)

 

 

 

AND Operations

 

*word에서 특정 부분의 비트들에 주목할 때 유용

 ㆍ특정 비트들을 선택하고, 나머지는 0으로 볼 때

 and $t0, $t1, $t2

$t2 0000 0010 0101 1100 0000 1101 1100 0110
$t1 0000 0000 0000 0000 0011 1100 0000 0000
$t0 0000 0000 0000 0000 0000 1100 0000 0000

 

OR Operations

 

*word에서 특정 부분을 포함시키고 싶을 때 유용

 ㆍ특정 비트 부분을 무조건 1로 바꾸고, 나머지는 그대로 계승하고 싶을 때

 or $t0, $t1, $t2

$t2 0000 0000 0000 0000 0000 1101 1100 0000
$t1 0000 0000 0000 0000 0011 1100 0000 0000
$t0 0000 0000 0000 0000 0011 1101 1100 0000

 

NOT Operations

 

*word의 비트들을 모두 반전시키고 싶을 때 유용

 ㆍ0은 1로, 1은 0으로

*MIPS는 NOR 3항 연산(3-operand instruction)으로 구현한다

 ㆍa NOR b 는 NOT (a OR b) 를 의미한다.

  (b가 0비트들이면, a OR b는 a 그 자체이므로, NOT a)

   (※ 레지스터 0: 항상 0으로 읽히는)

$t1 0000 0000 0000 0000 0011 1100 0000 0000
$t0 1111 1111 1111 1111 1100 0011 1111 1111

 


<2.7 - Instructions for Making Decisions>

branch(분기)와 관련된. C언어의 if-else문 같은.

 

 

 

Conditional Operations

조건

 

*만약 조건(condition)이 true라면, 표시(label)된 instruction으로 향하게 하는 분기(branch)

 ㆍ그렇지 않으면(false), 그대로 진행(continue sequentially)

 

beq rs, rt, L1

 ㆍ만약 rs==rt 라면, L1이라고 표시된 instruction으로 이동

 

bne rs, rt, L1

 ㆍ만약 rs!=rt 라면, L1이라고 표시된 instruction으로 이동

 

j  L1

 ㆍ무조건 L1이라고 표시된 instruction으로 이동

 

 

 

Compiling If Statements

If 구문 컴파일

*C code:

 if (i == j) f = g + h;

 else f = g - h;

 ㆍf는 $s0에, g는 $s1에, h는 $s2에, i는 $s3에, j는 $s4에.

 

*컴파일된 MIPS code:

   bne $s3, $s4, Else

   add $s0, $s1, $s2

    j   Exit

 Else: sub $s0, $s1, $s2

 Exit: ... ← 어셈블러가 계산한 주소

 

 

 

Compiling Loop Statements

반복 구문 컴파일

 

*C code:

 while (save[i] == k) i += 1;

 ㆍi는 $s3에, k는 $s5에, 배열 save의 시작 주소는 $s6에.

 

*컴파일된 MIPS code:

 Loop: sll  $t1, $s3, 2  (처음 주어질 i index만큼의 주소(4byte)를 위해 2^2=4를 곱해둠)

    add $t1, $t1, $s6 (offset(위에서 구해둔 i*4)에 시작 주소 더하면 save[i]의 주소)

    lw  $t0, 0($t1)

    bne $t0, $s5, Exit

    addi $s3, $s3, 1

    j   Loop

 Exit: ...

 

 

 

Basic Blocks

 

*Basic block이란 instruction들의 순서대로 모인 집합이다.

 ㆍembedded branch(일체형 분기)는 없다.(끝 부분을 제외하고. 끝에는 있을 수 있음.)

 ㆍbranch target(분기 대상, labeled)은 없다.(처음 시작 부분을 제외하고. 처음에는 있을 수 있음.)

 ㆍ즉, 중간에는 branch(분기)도 없고, labeled된(점프할 곳으로 지정된) 곳도 없다. 분기가 없는 일련의 연속 작업 덩어리.

*컴파일러는 최적화를 위해 이런 basic block들을 찾아낸다.

*진보된(고성능) 프로세서는 basic block들의 수행을 가속시킬 수 있다.

 

 

 

More Conditional Operations

더 조건적인. 한 조건으로 1or0. 이전에는 점프로 직접 조절.

 

*만약 조건이 true라면 결과를 1로 설정

 ㆍ그렇지 않다면, 0으로 설정

 

slt rd, rs, rt

 ㆍif (rs < rt) rd = 1;

  else rd = 0;

 

slti rt, rs, constant

 ㆍif (rs < constant) rt = 1;

  else rt = 0;

 

*beq와 bne의 혼합으로 사용한다

 slt   $t0, #s1, $s2 # if ($s1 < $s2)

 bne $t0, $zero, L # 0이 아니면(1) L로 이동. branch not equal

 

 

 

Branch Instruction Design

분기 명령 설계

 

*왜 blt(branch less than), bge(branch greater or equal), ...은 없는가?

 

*하드웨어 입장에서 <, ≥의 연산은 =, ≠ 보다 느리다.(복잡하다)

 ㆍ모든 분기를 지원하면, 한 instruction마다 기존보다 더 많은 일을 수행하고 되고, 클럭 속도가 느려진다.

 ㆍ모든 instruction 전체가 불이익을 받는다.(느려진 클럭 속도로)

 

*beq와 bne가 더 일반적인 경우로 잦게 쓰인다.

 

*좋은 설계를 위한 타협이다.

 

 

 

Signed vs. Unsigned

부호있는 vs. 부호없는

 

ㆁ부호있는 비교: slt, slti

 

ㆁ부호없는 비교: sltu, sltui

 

ㆁ예제

 *$s0 = 1111 1111 1111 1111 1111 1111 1111 1111

 *$s1 = 0000 0000 0000 0000 0000 0000 0000 0001

 *slt $t0, $s0, $s1

  ㆍ-1 < 1 ??→YES→ $t0 = 1.

 *sltu $t0, $s0, $s1

  ㆍ4,294,967,295 < 1 ??→NO→ $t0 = 0.

 

 

 

잠깐 복습, ISA(Instruction set architecture)란?

하드웨어와 저수준(the lowest level) 소프트웨어간의 추상적인 인터페이스

 


<2.8 - Supporting Procedures in Computer Hardware>

 

 

 

6 Steps in Execution of a Procedure

프로시저(함수(function). 어떤 작업.) 실행의 6가지 단계

 

1. 메인 routine[Caller]파라미터(매개값)프로시저[Callee]가 접근가능한 곳에 위치시킨다.

 ※ $a0~$a3: 매개값을 위한 4개의 레지스터

2. Caller제어권(control)Callee에게 넘겨준다.

3. Callee는 필요한 storage(메모리)를 얻는다.

4. Callee는 요구되는 (하기로 된 서브루틴 작업)을 수행한다.

5. Callee결과값Caller가 접근가능한 곳에 위치시킨다.

 ※ $v0~$v1: 결과값을 위한 2개의 레지스터

6. Callee제어권(control)Caller에게 반납한다.

 ※ $ra: 하드웨어가 사용하는, 반환 주소를 위한 레지스터. Caller에게 제어권을 주기 위한 주소.

 

 

 

Register Usage

MIPS에서. 2.3에서 봤던.

번호 이름 용도 호출 중에 값이 변하지 않는지
0 $zero 항상 0 (hardware) n.a. (해당없음)
1 $at 어셈블러만 사용하도록 예약된. (프로그래머는 X) n.a.
2~3 $v0~$v1 반환값 (서브루틴. 함수호출) no
4~7 $a0~$a3 argument(매개값) (서브루틴. 함수호출) yes
8~15 $t0~$t7 임시 값들 (rvalue) no
16~23 $s0~$s7 저장되는 용도의 값 (변수, lvalue) yes
24~25 $t8~$t9 임시 값들 (rvalue) no
26~27 $k0~$k1 OS 커널만 사용하도록 예약된. no
28 $gp global 포인터 yes
29 $sp stack 포인터 yes
30 $fp frame 포인터 yes
31 $ra 반환 주소 (hardware) yes

 

 

 

Procedure Call Instructions

 

ㆁ프로시저 호출(call): jal(jump and link) (※ 그냥 점프는 j였음)

 jal "Procedure Label"

 *바로 다음에 올 instruction의 주소를 $ra에 담는다.(프로시저(서브루틴)가 종료되면 다음으로 진행되기 위해)

 *대상 주소(프로시저가 수행되기 위해 label 된)로 점프

 

ㆁ프로시저 리턴(return): jr(jump register)

 jr $ra

 *프로그램 카운터(program counter, PC)에 $ra를 복사한다.

  (PC는 현재 실행하고 있는 명령의 메모리 주소가 담기는 레지스터.

   즉, 프로시저 다음의 명령 주소로 돌아와 계속 진행하려는 것.)

 *jr은 computed jump에 사용되기도 있다.

  ㆍe.g., case/switch 구문에

 

 

 

Leaf Procedure 예제

Leaf Procedure: 함수 내에서 다른 함수를 호출하지 않음

 

*C code:

 int leaf_example(int g, h, i, j)

 {

  int f;

  f = (g + h) - (i + j);

  return f;

 }

 ㆍ매개변수들 g는 $a0에, h는 $a1에, i는 $a2에, j는 $a3에.

 ㆍf는 $s0에. (여기서부터는 이 루틴 안이므로, 스택으로써 $s0에)

 ㆍ반환값은 $v0에.

 

*MIPS code:

 

 

 

Non-Leaf Procedures

 

*프로시저 내에서 다른 프로시저를 호출하는 형태

 

*내포된(nested) 호출(call)이 있으므로, Caller는 스택에 다음 값들을 저장해야 한다.

 ㆍ반환될 주소. Leaf와 다르게 $ra 하나에 의존할 수 없으니..

 ㆍ필요한 매개값이나 임시값들

 

*call 이후에(한 루틴이 끝나면) 스택에 저장해둔 값을 복귀시켜야 한다.

 

*C code: recursive function(재귀함수)로 팩토리얼 구하기

 int fact(int n)

 {

  if (n < 1) return 1;

  else return n * fact(n - 1);

 }

 ㆍ매개변수 n은 $a0에.

 ㆍ반환값은 $v0에.

 

*MIPS code:

 

 

 

Local Data on the Stack

프로그램에서 프로시저(function)가 호출 될 때 메모리가 어떻게 할당되는지.

스택 할당(allocation). 프로시저 호출에서, (a) 전, (b) 도중, (c) 후.

*$sp는 스택의 top을 가리키고(activation record의 끝 주소),

 $fp(frame pointer)는 이번 프로시저에 할당되기 직전 가리키고 있던 스택포인터를 가리킴(activation record의 시작 주소)

*procedure frame (activation record)

 ㆍ$fp에서 $sp까지. 하나의 function을 실행할 때 할당되는 메모리 공간.

 ㆍ몇몇 컴파일러들은 스택 공간을 관리하기 위해 사용한다.

*local data는 Callee에 의해 할당된다.

 

 

 

Memory Layout

 

프로그램과 데이터를 위한 MIPS 메모리 할당

*Text: 프로그램 코드 (instruction들)

 ㆍpc(program counter)가 이 영역에서 움직이면서 현재 실행될 instruction을 가리킨다.

 

*Static data: 전역 변수들

 ㆍe.g., C에서 static 변수, constant array나 string, ...

 ㆍ$gp(global pointer)는 Static data를 가리키기 쉽도록,

  Text의 끝과 Dynamic data의 시작의 중간에 위치하여,

  ±offset으로 데이터를 가리켜 준다.

  (MIPS에서는 중간. 다른 프로세서는 다르게 동작할 수도 있음.)

 

*Dynamic data: heap 메모리에 할당

 ㆍe.g., C에서 malloc, Java나 C++에서 new, ...

 

*Stack: 현재 영역에서 사용할 자료 및 복귀 주소 등

 ㆍactivation record들이 쌓였다 복구됨.

 


<2.9 - Communicating with People>

 

 

 

Character Data

문자 데이터

 

ㆁbyte-encoded(1byte=8bit) character sets

 *ASCII: 128(2^7)개의 문자 표현

  ㆍ95개의 그래픽, 33개의 제어용

 *Latin-1: 256(2^8)개의 문자 표현

  ㆍASCII 보다 96개의 그래픽이 더 많음(191)

 

ㆁUnicode: 32-bit character set

 *Java, C++ 등에서 쓰임

 *대부분의 국가 언어 문자와 기호를 표현 가능

 *UTF-8, UTF-16: 여러 길이의 인코딩이 존재함

 

 

 

Byte/Halfword Operations

(1Byte(8bits)/2Bytes(16bits))

 

*bitwise operation으로 1비트씩 옮길 수도 있지만,

 byte/halfword 단위로도 데이터 이동이 가능하다.

 

*MIPS byte/halfword load/store

 (String 처리가 일반적인 경우이다.)

 lb rt, "offset"(rs)   lh rt, "offset"(rs)

 ㆍ메모리 주소로부터 부호있는 값의 하위 8/16비트들을 불러와,

  32비트로 늘려서(LSB의 값과 같은 비트가 복제되어 왼편에 나열)

  레지스터(rt)에 불러옴.

 lbu rt, "offset"(rs)   lhu rt, "offset"(rs)

 ㆍ메모리 주소로부터 부호없는 값의 하위 8/16비트들을 불러와,

  32비트로 늘려서(LSB 왼편은 모두 0으로 나열)

  레지스터(rt)에 불러옴.

 sb rt, "offset"(rs)   sh rt, "offset"(rs)

 ㆍrt의 값 중 하위 8/16비트의 값을 메모리 주소가 가리키는 곳에 저장.

 

 

String 복사 예제

 

*C code:

 ㆍnull문자(\0)로 끝나는 string

 void strcpy (char x[], char y[])

 {

  int i = 0;

  while ((x[i]=y[i]) != '\0')

  {

   ++i;

  }

 }

 ㆍx, y의 주소는 각각 레지스터 $a0, $a1에.

 ㆍi의 값은 $s0에.

 

*MIPS code:

 

 

 

잠깐 복습,

jal "프로시저라벨" 명령어의 의미는?

ㆍ바로 다음의 instruction의 주소를 $ra에 저장

ㆍ그리고 대상 주소(프로시저라벨)로 점프

 


<2.10 - MIPS Addressing for 32-Bit Immediates and Addresses>

 

 

 

32-bit Constants(상수)

 

*대부분의 상수는 작은 크기임

 ㆍ16-bit의 immediate로도 충분함.

*가끔 32-bit 상수가 쓰임

 lhi rt, "constant"

 ㆍ16-bit의 상수를 rt에 왼편 16비트 자리에 복사함.

 ㆍrt의 나머지 오른편 16비트 자리는 모두 0이 됨.

 

 

 

Branch Addressing

 

*분기(branch) instructions에 사용되는

 ㆍopcode, 2registers, target address

*대부분의 분기 대상(branch target, 분기 조건에 따라 이동하게 되는 곳)은 branch(지금 루틴) 근처에 존재한다.

 ㆍ앞으로 혹은 뒤로

 

op rs rt constant or address
6 bits 5 bits 5 bits 16 bits

(이전에 본 I-format)

 

*PC-relative addressing (PC가 가리키는 주소를 활용)

 ㆍtarget address = PC(Program counter) + offset(위에서 address)*4

 ㆍMIPS에서, PC는 어떤 루틴에 들어가면, 다음에 실행할 명령의 주소값을 가리키게 되어있음.

  즉, 이미 이번 분기에 진입할 때 4만큼 증가했었음.

  그러므로 타겟 주소를 계산할 때 고려해야 함.

 

 

 

Jump Addressing

 

*점프(j와 jal) 대상은 어디든 가능함. (branch 타겟과 달리 멀리로도 가는 편)

op address
6 bits 26 bits

*(Psuido)Direct jump addressing

 ㆍtarget address = PC_31...28 & (address*4)

  현재 PC의 상위 4비트와 address에 4를 곱한(left shift 2번) 28비트를 합쳐서 32비트로.

 

 

 

Target Addressing 예제

 

*2.7의 반복 구문 컴파일(Compiling Loop Statements)을 다시 가져옴

 ㆍLoop의 메모리 주소는 80000 이라고 가정.

 

*C code:

 while (save[i] == k) i += 1;

 ㆍi는 $s3에, k는 $s5에, 배열 save의 시작 주소는 $s6에.

 

*컴파일된 MIPS code:

 Loop: sll  $t1, $s3, 2  (처음 주어질 i index만큼의 주소(4byte)를 위해 2^2=4를 곱해둠)

    add $t1, $t1, $s6 (offset(위에서 구해둔 i*4)에 시작 주소 더하면 save[i]의 주소)

    lw  $t0, 0($t1)

    bne $t0, $s5, Exit

    addi $s3, $s3, 1

    j   Loop

 Exit: ...

 

 

 

 

Branching Far Away

만약 분기 대상 주소가 멀다면

 

*만약 분기 대상(branch target)이 너무 멀어서 16-bit의 offset으로도 표현할 수 없다면,

 (branch addressing은 현재 PC + 16bits의 offset으로 위아래를 표현하므로)

 어셈블러는 코드를 다시 작성하게 된다.

 

*예시:

   beq $s0, $s1, L1 가 아닌,

       

   bne $s0, $s1, L2

   j   L1

 L2: ...

   으로 바꿈.

 같다면(eq)로 이동할 대상(L1)이 너무 멀기 때문에,

 같다면 그냥 아래로 내려오고, 여기서 먼 L1으로 점프(jump addressing이라 PC 상위에 + 28비트 표현),

 같지 않으면 점프 아래인 L2(PC에서 한 칸만 뛰면 되는)로 이동함.

 (원래는 같다면 멀리 점프(불가능), 같지 않으면 그냥 아래로지만,

  바뀐 코드는 같다면 그냥 아래로+여기서 점프, 같지 않으면 2칸 아래로)

 

 

 

Addressing Memory 요약

 


<2.11 - Parallelism and Instructions: Synchronization>

기존과는 약간 생소함. OS나 임베디드 시스템, 마이크로칩에서도 다룰 내용.

 

 

 

Synchronization

동기화

 

ㆁ두 개 이상의 프로세서(멀티코어환경)가 메모리의 같은 영역을 공유

 *P1이 쓴 후, P2가 읽거나.

 *만약 P1과 P2가 제대로 동기화하지 않으면(동시에 접근해버리면),

  데이터는 경쟁 조건(race-condition)에 놓인다.

  ㆍ접근(access) 순서를 잘 조절해야 함.

 

ㆁ하드웨어가 지원해야 사용가능하다.

 *Atomic read/write memory operation(하드웨어가 이러한 기능을 사용 가능해야.)

  ㆍ한 번 실행하면 쉬지 않고 종료까지 달리는. 실행되었거나/않았거나 둘 중 하나.

  ㆍspin lock이라는 메커니즘을 구현할 때에도 사용됨.

 *읽고 쓰는 중에는 이 메모리에 다른 접근이 허용될 수 없다

 

ㆁAtomic read/write memory operation을 지원하는 single instruction(단일 명령문)이 있음.

 *e.g., 레지스터↔메모리의 atomic swap

 *또는 instruction들의 atomic 쌍(pair)

 

 

 

MIPS에서의 Synchronization

 

ㆁLoad linked: ll rt, "offset"(rs)

 *가리키는 주소 있는 값을 rt에 적재.

ㆁStore conditional(조건적인 저장): sc rt, "offset"(rs)

 *ll 이후로 해당 주소 위치의 값이 변하지 않았다면(여전히 $t1에 둔 값과 같다면),

  해당 주소 위치의 값을 rt로(storeO), 그리고 rt의 값을 1로, 그렇지 않다면 건드리지 않고(storeX), rt는 0으로.

 *성공하면(ll 이후로 가리키는 주소 위치의 값이 변하지 않았다면)

  ㆍrt에 1을 반환한다(넣는다).

 *실패하면(ll 이후로 가리키는 주소 위치의 값이 변해있다면, 즉, 그 사이에 다른 누군가 건드렸겠지.)

  ㆍrt에 0을 반환한다(넣는다).

 

ㆁ예제: atomic swap (lock용 변수를 테스트/세팅)

 sc에서 store가 성공했다면, $s1이 가리키는 주소 위치의 값은 $t1이 보존한 채, 거기에 $s4의 값을 넣어준 것.

 이후에 $s4에는 $t1에 보존된 값을 넣어줌으로써 정상적으로 swap.

 sc에서 store가 실패했다면, 어차피 $s1이 가리키는 주소 위치의 값은 건드리지 않으며,

 다시 처음으로 가서 $s4의 값을 $t0에 새로 받아오려 할 것이므로, 이 상태에서는 값의 부분적인 변화가 없음.

 


<2.12 - Translating and Starting a Program>

실제 작성된 코드가 어셈블리어로 어떻게 바뀌고 프로그램으로서 실행되는지.

 

 

 

Translation and Stratup

ㆍC언어(HLL)로 작성된 프로그램을, 컴파일러가 어셈블리어 프로그램으로.

ㆍ어셈블리어 프로그램을, 어셈블러가 오브젝트(기계어 모듈)로.

 (대부분의 컴파일러는 위 두 과정을 한 번에 일괄적으로 진행함)

ㆍ내 코드로 만들어진 오브젝트들과, 사용한 라이브러리에 의해 만들어진 오브젝트들을

 링커가 합쳐서 실행가능한 기계어 프로그램(실행파일)으로 작성.

 이 과정을 static linking이라고 함.

 (static linking은 프로그램에 라이브러리에 의한 내용이 모두 포함.

  프로그램을 여러개 실행하면 메모리에 중복되는 부분이 존재함.

  반대되는 개념으로 dynamic linking이 있음. 메모리의 한 영역에 라이브러리 내용이 로드되고, 공통적으로 사용.) 

ㆍ실행파일이 실행(OS의 메모리에 올라와야 함)되기 위해,

 로더가 실행파일을 메모리에 로드(메모리에 프로그램을 올림).



 

Assembler Pseudoinstructions

어셈블러 유사instructions

 

*대부분의 어셈블러 instruction들은 기계 instruction들을 1:1대응으로 표현한다.

 실제 MIPS instruction에는 없지만, 어셈블러에서 사용할 수 있는 가짜 명령어.

 어셈블러가 이 명령어들을 실제 MIPS instruction들로 바꿔줌.

 

*pseudoinstructions: 어셈블러의 상상으로 꾸며낸 것들.

 move $t0, $t1  → add $t0, $zero, $t1

 blt   $t0, $t1, L → slt   $at, $t0, $t1

              bne $at, $zero, L

 ㆍ$at(1번 레지스터): 어셈블러 전용의. 임시값용. 여기서 어셈블러만 사용하는 레지스터를 이용해서 명령어 구현.

 

 

*어셈블러(혹은 컴파일러)는 프로그램을 기계 instruction(비트로 된)으로 번역한다.

*Object Module은, 조각들로부터 하나의 완전한 프로그램을 만들기 위한 정보들을 갖고 있다.

 ㆍHeader: object module의 내용.

 ㆍText segment: 번역된 instruction들.

 ㆍStatic data segment: 프로그램의 수명과 함께 할당된 데이터. 즉, global, static 데이터.

 ㆍRelocation info: 로드된 프로그램에서 절대경로에 의존하는 내용들을 위해.

 ㆍSymbol table: global definition과 external ref들.

 ㆍDebug info: 디버깅을 위한 source 코드 정보.

 



Linking Object Modules

 

*하나의 실행가능한 이미지를 생성한다.

 1. 조각들(segments)을 병합(merge)한다.

 2. label을 결정한다.(label의 주소를 정한다)

  서로 다른 label을 사용했던 레퍼런스들을 해결함.

 3. 경로 의존적인 것들을 해결하고, 외부 참조들(external refs)을 처리한다. (patch 과정)

 

*relocating loader에 의해 조절되는 경로 의존성(location dependencies)은 그냥 둔다.

 ㆍ하지만 가상 메모리 환경(현재 컴퓨터들이 주로 사용하는 형태)에서는, 그럴 필요가 없다(버려도 된다).

  가상 메모리 환경은, 모든 프로그램들이 같은 메모리 영역을 사용한다.

  그러므로 경로 의존 정보는 필요 없어진다.

 ㆍ즉, 프로그램은 가상 메모리 공간의 절대 경로로 로드될 수 있다. 절대 주소를 사용한다.

 

 

 

Loading a Program

 

ㆁ디스크로부터 이미지 파일을 메모리에 Load(적재)

 1. segment size들을 결정하기 위해 header를 읽어들인다.

 2. 가상 메모리 공간을 만든다.

 3. 텍스트와 초기 데이터를 메모리에 복사한다.

  ㆍ혹은 이것만으로 문제가 발생할 수 있다면, page table 전체를 세팅하기도 한다.

 4. 스택에 매개값들(arguments)을 세팅한다.

 5. 레지스터들을 초기화한다. ($sp, $fp, $gp 포함..)

 6. startup(시동) 루틴으로 점프한다.

  ㆍ매가값들(arguments)을 $a0~에 복사하고, main을 호출한다.

  ㆍmain이 return되면, exit syscall을 수행한다.

 

 

 

Dynamic Linking

static linking과 반대되는 개념

 

*해당 프로시저(함수)를 호출할 때만 라이브러리 프로시저에 link/load

 ㆍ재배치 가능한(relocatable) 프로시저 code가 필요하다.

 ㆍinclude되어 연결되며 참조되는 등 모든 라이브러리를 static linking으로 이미지에 포함시키면,

  이미지가 아주 커질 수 있고, 메모리에도 공통되는 라이브러리 코드(다른 프로그램이지만 같은 라이브러리, 혹은 같은 프로그램 여러개라도)가 여러 번 존재할 수 있는데,

  이를 방지할 수 있다.

 ㆍDLL(Dynamically Linked Libraries)이 별도로 존재하므로, 프로그램 코드를 수정하지 않아도

  라이브러리 프로시저를 이용할 때 자동적으로 새로운 버전의 라이브러리를 적용시킬 수 있다.

 ㆍ아래에서 설명할 Lazy Linkage라는 방식으로도 나뉨.

 

Lazy Linkage

항상 Dynamic Linking에 필요한 정보들을 통해 프로시저들을 메모리에 미리 전부 준비시키는 방식이 있는가 하면,

처음 프로시저가 호출 됐을 때에 준비시키는 것이 Lazy Linkage.

(프로그램에서 모든 메서드가 항상 다 호출되는 것이 아니고, 데이터의 종류에 따라 다를 수 있으니.)

이런 방식으로 인해 dynamic linking은 static linking에 비해 속도가 느릴 수 밖에 없다.

용량효율(실행파일 용량, 메모리 중복) + DDL버전 용이 및 재컴파일 필요X와 성능의 갈림.

 

 

 

Starting Java Applications

Java의 번역 계층: Java 프로그램은 먼저 Java bytecodes라는 이진 코드로 컴파일되고, 모든 주소가 컴파일러에 의해 정의된다. 그러면 JVM이라는 인터프리터에서 실행될 준비가 된 것이다. 실행되는 동안 JVM은 Java 라이브러리의 원하는 메서드를 link해준다. 성능 향상을 위해 JVM은 JIT 컴파일러를 부를 수 있으며, JIT 컴파일러는 선택적으로 메서드를 실행 중인 머신의 고유한 기계어로 번역한다.

  이전 파트는 전통적인 프로그램 실행모델로,

특정 ISA 혹은 해당 아키텍처의 특정한 구현을 목표로 한 프로그램의

빠른 실행 속도를 중점한 것이다.

  사실, Java 프로그램도 C처럼 실행할 수 있다.

하지만, Java는 다른 목표를 갖고 개발되었으며,

그 중 하나가 실행시간이 좀 느려지더라도 다른 컴퓨터(아키텍처)에서도 안전하게 구동되는 것이었다.

  위의 그림은 Java의 일반적인 번역과 실행과정을 보여준다.

대상 컴퓨터의 어셈블리어로 컴파일 되기 보다는(X)..

Java는 Java bytecode instruction set이라는 해석(interpret)되기 쉬운 명령으로 번역된다.

(Java bytecode: Instruction from an instruction set designed to interpret Java programs)

이 명령어 집합(Instruction set)은 Java 언어에 가깝되록 설계되었으므로 컴파일 과정이 간단하다.

최적화는 거의 수행되지 않을 정도이다.

Java 프로그램은 이러한 bytecode의 이진 형태로 펼쳐진다.

이제 C 컴파일러처럼, Java 컴파일러도 데이터의 종류와 각 종류에 맞는 동작을 할 프로시저들을 확인한다.

  Java 가상 머신(JVM)이라 불리는 소프트웨어 인터프리터는, Java bytecode를 실행할 수 있다.

(Java Virtual Machine(JVM): The program that interprets Java bytecodes.)

인터프리터란, ISA를 시뮬레이션하는 프로그램이다.

수업에서 나온 MIPS simulator도 인터프리터의 예라고 할 수 있다.

Java bytecode는 번역이 너무 간단하여, 각각의 조립(assembly) 단계가 필요하지 않으며,

돌아가는 중에(at runtime) 컴파일러가 주소를 채우거나, JVM이 찾아낼 수 있다.

interpretation의 장점은 이식성(portability)이다.

JVM의 가용성은 Java가 발표된 후 곧바로 많은 사람들이 Java를 쓰고 실행할 수 있게 해주었다.

오늘날, JVM은 모바일 기기에서부터 웹 브라우저까지, 수많은 장치에서 볼 수 있다.

interpretation의 단점은 저성능이다.

1980~90년대의 성능 향상으로 많은 어플리케이션에서 사용될 수 있게 되었지만,

전통적인 C 프로그램에 비해 성능이 10배나 느릴 수 있다는 점은, 딱히 Java의 매력을 느끼지 못하게 한다.

이식성(portability)를 유지하면서도 실행 속도를 향상시키기 위해,

Java의 다음 개발 단계는 프로그램이 실행되는 동안 번역하는 컴파일러였다.

  이러한 Just In Time(JIT) 컴파일러는 실행 중인 프로그램을 분석하여 사용하는 메서드의 위치를 찾아내어 실행 중인 머신의 고유한(native) instruction set으로 컴파일한다.

(Just In Time(JIT) compiler: The name commonly given to a compiler that operates at runtime, translating the interpreted code segments into the native code of the computer)

컴파일된 부분은 저장되므로, 다음에 프로그램이 실행될 때에는 바로 활용할 수 있으므로 더 빨리 실행될 수 있다.

이러한 interpretation와 compilation의 균형잡힌 발전이 지속되면서, Java 프로그램은 interpretation의 오버헤드가 거의 없이 수월하게 실행될 수 있다.

컴파일러가 더 많은 작업을 할 수 있도록 컴퓨터가 빨라지고, 개발자들은 Java를 즉시 컴파일하는 방법을 연구할 수록, Java와 C나 C++의 성능 격차는 줄어들 것이다.

2.15에서, Java의 구현, Java bytecodes, JVM, JIT 컴파일러에 대해 좀 더 깊게 볼 수 있다.

 


<2.13 - A C Sort Example to Put It All Together>

 

 

 

C Sort 예제

C 정렬 예제

 

*C 버블 정렬 함수를 어셈블리 instruction로 설명

 

*swap 프로시저 (leaf 구조)

void swap(int v[], int k)
{
    int temp;
    temp = v[k];
    v[k] = v[k + 1];
    v[k + 1] = temp;
}

 ㆍv는 $a0에, k는 $a1에, temp는 $t0에.

 

Swap 프로시저

어셈블리 코드로는

 

C에서의 정렬 함수(bubble sort)

 

*non-leaf 구조 (내부에서 swap 함수 호출)

void sort(int v[], int n)
{
    int i, j;
    for (i = 0; i < n; ++i)
    {
        for (j = i - 1; j >= 0 && v[j] > v[j + 1]; --j)
        {
            swap(v, j);
        }
    }
}

 ㆍv는 $a0에, k는 $a1에, i는 $s0에, j는 $s1에.

 

The Procedure Body

The Full Procedure

위의 body가 중간에 위치함.

 

 

 

Effect of Compiler Optimization

컴파일러 최적화의 효과

OS: Linux, Processor: Pentium 4, Compiler: gcc

 

Compiler Benefits

 

*버블 정렬을 통해 본 성능 비교

 ㆍ100,000개의 데이터(word, 무작위 값들로 초기화된 배열)를 정렬하는 작업을

  Pentium 4(3.06 GHz clock rate, 533MHz system bus), 2GB DDR SDRAM, Linux 2.4.20 환경에서

  테스트.

gcc Optimazation 상대적 성능 Clock cycles (M) Instruction count (M) CPI
none 1.00 158,615 114,938 1.38
O1 (medium) 2.37 66,990 37,470 1.79
O2 (full) 2.38 66,521 39,993 1.66
O3 (procedure interfration) 2.41 65,747 44,993 1.46

 

 

 

Effect of Language and Algorithm

언어종류나 알고리듬의 효과

기본적으로 Java가 C보다 느림.

특히, 인터프리터 방식의 Java는 성능차가 많이 났으나, JIT 컴파일러의 발전으로 성능차이를 많이 따라잡음.

(인터프리터는 line by line으로 명령어 단위로, JIT 컴파일러는 chunk(덩어리) 단위로)

 

Lessons Learnt

배운 교훈

 

*Instruction count(수)와 CPI는 그 자체로(독립적으로) 성능 측정자로 여겨지기엔 부족하다.

 

*컴파일러 최적화는 알고리듬(코드 구현 방식)에 민감하다.

 

*Java에서 JIT 컴파일 된 코드는 JVM의 인터프리터 방식보다 아주 빠르다.

 ㆍ어떤 경우에는 최적화된 C와 비빌 수 있을 정도이다.(그래도 앞서진 못함ㅎ)

 

*쓰레기 알고리듬을 구제할 방법은 없다. 알고리듬을 잘 짜야한다.

 


<2.14 - Arrays versus Pointers>

 

 

 

Arrays vs. Pointers

배열 vs 포인터

 

*배열은 index(색인, 순서, 번호)를 포함한다.

 ㆍ요소의 크기만큼을 index에 곱한다.

 ㆍ배열의 기본 주소(base address)에 위의 곱한 결과를 offset으로 더한다.

 

*포인터는 메모리 주소를 직접 가리킨다

 ㆍoffset을 계산하는(indexing) 과정은 피할 수 있다.(다만, 해당 위치를 직접 가리켜야한다.)

 ㆍ위의 과정이 없어도 되니, 성능 향상에 도움이 될 수 있다.

 

예제: Clearing and Array

 

Comparison of Array vs. Ptr

배열과 포인터의 비교

 

*인덱스 계산(shift 명령)을 줄이는 효과가 쌓이면서 점차 성능 향상

 

*배열 방식은 루트문 내부에서 shift 명령이 필요하다.

 ㆍ인덱스를 나타내는 변수(i)가 변하면서, 여기에 맞춰서 주소를 다시 계산하므로.

 ㆍc.f. 포인터 방식에서는 그냥 주소에 바로 증감

 

*컴파일러는 프로그래머가 포인터를 명시적으로 사용한 것과 같은 효과를 최적화로 이끌어낼 수 있음

 ㆍ유도 변수(induction variable)를 제거.(i를 사용하는 방식)

 ㆍ성능은 좋으면서도 코드는 깔끔하고 안전할 수 있도록 해 줌.(그러므로 배열 사용 권장.)

 


<2.16 - Real Stuff: ARMv7 (32-bit) Instructions>

실제로 자주 사용되는 ARM 프로세서의 명령어를 봄.

ARM: Advanced Risk Machine. 영국의 프로세서 설계 회사.

스마트폰의 대부분에 사용되는 프로세서.

 

 

 

ARM과 MIPS의 유사점

ㆍARM: 임베디드 코어 시장에서 가장 많이 쓰이는 프로세서 방식

ㆍ기본적인 instruction set이 MIPS와 유사함

  ARM MIPS
발표시기 1985년 1985년
Instruction 크기 32 bits (v7) 32 bits
Adress 공간 32-bit flat 32-bit flat
Data alignment(정렬) 정렬됨 정렬됨
Data addressing 방식 9가지 3가지
레지스터 수 16개(0~15)의 32-bit 32개(0~31)의 32-bit
Input/Output 메모리에 맵핑해서 메모리에 맵핑해서

※ ARMv8은 64-bit instruction

 

Compare and Branch in ARM

ARM에서의 비교와 분기

 

*산술/논리 instruction의 결과를 써서 조건 코드(condition code)를 만들 수 있음.

 ㆍnegative, zero, carry, overflow

 ㆍ결과를 보존한다기보다는, condition code에 넣어 compare instruction에 사용함.

 

*각 instruction들이 조건적(conditional)이 될 수 있음.

 ㆍinstruction의 최상위 4비트를 condition 값으로 둠.

 ㆍ단일 instruction만으로도 branch구문 없이 조건적인 동작이 가능함.

 

Instruction Encoding

 

 

 

잠깐 복습,

lhi rt, constant의 의미는?

ㆍ16비트로 된 상수를 rt의 최상위 16비트에 복사

ㆍrt의 나머지 오른쪽 16비트는 모두 0으로 세팅

 


<2.17 - Real Stuff: x86 Instructions>

일반 PC에 가장 많이 사용되는 프로세서는 Intel 프로세서.

Intel 프로세서의 아키텍처(ISA)를 x86이라고 함(386, 486, ... 으로 네이밍하던).

 

 

The Intel x86 ISA

 

ㆁ하위 호환성(backward compatibility, 예전 것을 새 환경에서도 지원)를 유지한 채 발전

 *8080 (1974년): 8-bit 마이크로프로세서

  ㆍ누산기(Accumulator)에 3쌍의 레지스터를 더 함.

  ㆍ아직도 임베디드 시스템에서 8-bit 마이크로프로세서가 쓰이는 분야에서 쓰이기도 함.

 *8086 (1978년): 8080으로부터 16-bit로 확장

  ㆍComplex Instruction Set(CISC)

 *8087 (1980년): floating-point coprocessor

  ㆍ실수 명령을 지원하며, 레지스터 묶음(register stack)을 사용.

 *80286 (1982년): 24-bit addresses, MMU(Memory Management Unit) 포함

  ㆍsegmented memory mapping 및 protection 지원.

 *80386 (1985년): 32-bit extension (IA-32라고 함. Intel Architecture)

  ㆍaddressing 방식과 작업들의 종류가 늘어남.

  ㆍsegment 할당방식에서 paged memory mapping 또한 지원하게 됨.

 *i486 (1989년): pipeline형. on-chip 캐시와 FPU

  ㆍ호환되는 경쟁사: AMD, Cyrix, ...

 *Pentium (1993년): superscalar(4장 마지막내용) 지원, 64-bit datapath

  ㆍ후기 버전에 MMX(Multi-Media eXtension) instruction 추가

  ㆍ악명높은 FDIV 버그가 있음

 *Pentium Pro (1995년), Pentium 2 (1997년)

  ㆍ새로운 microarchitecture (The Pentium Chronicles - Robert P. Cowell 참고)

 *Pentium 3 (1999년)

  ㆍSSE(Streaming SIMD Extensions) 추가, associated registers

 *Pentium 4 (2001년)

  ㆍ새로운 microarchitecture

  ㆍSSE2 instruction 추가

 ※ AMD64 (2003년): 64-bit로 확장된 아키텍처

 *EM64T (2004년): Extended Memory 64 Technology

  ㆍIntel이 AMD64 방식을 채택함(어느정도 가다듬어서)

  ㆍSSE3 instruction 추가

 *Intel Core (2006년) (멀티코어)

  ㆍSSE4 instruction 추가, 가상 머신(virtual machine) 지원

 ※ AMD64 (2007년형)

  ㆍSSE5 instruction 추가

  ㆍIntel은 더이상 따르기를 거부함.

 *Advanced Vector Extension (2008년)

  ㆍLonger SSE registers, more instructions

 

 *만약 Intel이 호환성을 갖추지 않았다면, 시장에서 인기를 유지하기 힘들었을 것.

  ㆍ기술적인 정교함이 시장에서의 성공과 직관된다고 할 수 없음.

   다른 프로세서가 성능이 조금 더 좋아도, 기존 유저는 호환성으로 외면할 수 있음.

 

 

 

Basic x86 Registers

MIPS와 달리 레지스터 길이가 동일하지 않음.

 

 

 

Basic x86 Addressing Modes

x86의 주소표현 방식

 

*instruction마다 2개의 operand가 존재함.

source/destination operand 2nd source operand
Register 주소 Register 주소
Register 주소 Immediate
Register 주소 Memory 주소 바로
Memory 주소 바로 Register 주소
Memory 주소 바로 Immediate

*Memory addressing modes

 ㆍbase레지스터(rs가 가리키는 레지스터)의 값에 가감

 ㆍbase레지스터값 + n  (n은 displacement로서. 0도가능.)

 ㆍbase레지스터값 + (2^scale * index레지스터값) + n  (scale: 0~3의 정수)

 

 

 

x86 Instruction Encoding

ㆁ다양한 길이의 encoding (※ MIPS는 모두 32-bit의 Instruction)

 *Postfix(접미사) byte가 특정한 addressing mode를 나타냄

 *Prefix(접두사) byte는 operation을 뜻함

  ㆍOperand length, repetition(반복), locking, ...

 *첫번째 설계 원칙(Simplicity favors regularity)에 위배되는 아키텍처.

  ㆍ레지스터 길이도 다르고, Addressing mode도 많고, Instruction 길이도 다름.

  ㆍ간단하지 않으므로 고성능을 기대하기 힘듦, 하지만 실제로 꽤 고성능을 보여주고 있음. (아래에 계속)

 

Implementing IA-32

 

※ CISC: Complex Instruction Set Computer / RISC: Reduced Instruction Set Computer

ㆁ복잡한 instruction set은 implementation(구현)을 어렵게 한다.

 (그러므로 이대로는 높은 성능을 기대하기 어렵다.)

 *하드웨어가 instruction을 간단한 microoperation들로 나누어 준다.

  ㆍsimple instruction: 1→1

  ㆍcomplex instruction: 1→다수

 *RISC와 비슷한 Microengine을 갖고있다.(Microengine이 RISC처럼 행동한다.)

  이 Microengine이 microoperation들을 실행한다.

 *비용이 들테지만, 시장 점유율 덕분에 경제적으로 실현가능.

 

ㆁRISC과 견줄만 한 성능을 낸다.

 ㆍ컴파일러가 복잡한 instruction을 해결시켜 준다.

 

IA는 구조적으로 MIPS에 비해서는 안 좋은(비효율적인) 구조를 가지고 있지만,

내부적으로는 MIPS 같은 RISC 아키텍처를 따르므로,

CISC instruction을 RISC 방식의 microoperation으로 나눠주는 오버헤드를 제외하면,

내부적인 성능은 RISC과 거의 유사하다.

이런 방식으로 Intel은 높은 성능을 구현함.

 


<2.18 - Real Stuff: ARMv8 (64-bit) Instructions>

 

 

 

ARM v8 Instructions

 

ㆁ64-bit이 되면서, ARM은 거의 완전 해체조립 수준으로 재구축함(기존의 것들을 많이 포기한 것들이 있음).

 *높은 성능을 위해 기존의 것들을 버리고, MIPS와 유사한 형태로 간 것들이 있음.

 

ㆁARM v8은 MIPS와 닮아있다.

 *v7(32-bit)과는 달라진 점:

  ㆍconditional execution field(상위 4비트의)를 없앰.

  ㆍImmediate field는 12-bit로 고정됨.

  ㆍ여러 개의 word(데이터)를 동시에 load/store 하는 방식을 버리고, 한 번에 한 개의 word(데이터)만.

  ㆍPC(Program Counter)는 더이상 GPR이 아님.

  ㆍGPR은 32-bit로 확장됨.

  ㆍAddressing mode는 모든 word 크기에 동작함. (Adressing modes work for all word sizes)

  ㆍDivide instruction.

  ㆍequal이라면 분기(beq)와 equal이 아니라면 분기(bne) instruction을 지원.

 


<2.19 - Fallacies and Pitfalls>

 

 

 

Fallacies

잘못된 생각(오류)

 

ㆁPowerful instruction(하나의 명령어가 여러 동작을 한꺼번에)은 곧 고성능으로 이어진다??(X)

 *instruction의 수가 줄어드니까??

 *하지만 complex instruction은 구현(implement)를 더 어렵게 만든다.

  ㆍ여러 일을 동시에 해야하는 명령어를 실행하기 위해서 더 느린 clock을 사용해야 함.

   모든 명령어들이 여기에 맞춰서 느려짐.

  ㆍ전체적으로는 더 느려질 수 있다. 단순한 명령조차 느린 clock에 맞춰서 느려짐.

 *컴파일러는 simple instruction으로 만들어진 코드에서 빠르게 동작한다.

 

ㆁ고성능을 위해 어셈블리 코드를 사용해야 한다??

 *하지만 현대의 컴파일러들은 최적화를 잘 시켜주기 때문에, HLL로도 어셈블리 코드와 유사한 성능으로 이끌어 줌.

 *오히려 어셈블리 코드로 인한 코드의 line 수 증가는,

  프로그래머에게 실수를 유발하거나, 어렵고, 보기도 불편하고, 보수도 불편하고, 생산성도 떨어질 수 있음.

 *얻는 득보다 잃는 실이 더 많음. 컴파일러와 최적화를 믿고 HLL로 작성하자.(권장)

 *하지만, 임베디드 시스템처럼 특수한 상황에서는 어셈블리 코드를 사용할 상황이 있음.

  (HLL로는 제한된 환경이나 리소스에서 구현이 안 될 때 등..)

 

ㆁ하위 호환성(backward compatibility, 예전 것을 새 환경에서도 지원)을 유지하려면 instruction set은 바꿀 수 없다??

 *하지만 instuction 수를 점점 늘려왔음.

 *하위 호환성을 유지한다는 것이, Instruction set을 바꾸지 않는다는 말은 아님.

 *명령어 수는 늘어나지만, 예전에 지원했던 명령어는 계속해서 사용 가능하도록.

 

 

 

Pitfalls

함정

 

*sequencial(순차적) words는 반드시 sequencial address에 놓여있는 것은 아니다.

 ㆍ(개인적으로)원문이 좀 이상하다고 생각하는데, 1단위로 연속되는 게 아니라고 말하고 싶은 듯..

 ㆍ4씩 증가하지, 1씩 증가하는 것이 아니다.

 ㆍword는 4byte니까 당연한 것 아닌가..??

 

*프로시저가 끝난 뒤에도 해당(끝난) 프로시저 내부의 지역변수를 가리키는 포인터를 사용하려고 하는 행위

 ㆍ해당 변수가 스택에서 빠져나오면(popped), 포인터는 같은 곳을 가리켜도 값이 망가졌으니 invalid.

 

 

 

Addressing Modes Illustrated

 

 

 

MIPS Organization So Far

 


<2.20 - Concluding Remarks>

 

 

 

Concluding Remarks

끝 맺으며

 

*Design Principles(설계 원칙)

 1. Simplicity favors regularity. 규칙성을 이용하여 간결하게 만든다.

 2. Smaller is faster. 작을 수록 빠르다.

 3. Make the common case fast. 일반적인 경우(자주 사용되는 경로)를 빠르게 해라.

 4. Good design demands good compromises. 좋은 설계는 좋은 타협을 필요로 한다.

 

*소프트웨어와 하드웨어의 계층 사이엔..

 ㆍ컴파일러, 어셈블러, 하드웨어

 

*MIPS: 전형적인 RISC(Reduced Instruction Set Computer) ISAs

 ㆍc.f., x86은 CISC(Complex Instruction Set Computer)

 

*벤치마크 프로그램을 통해 특정한 MIPS instruction executions

 ㆍcommon case를 빠르게 만드는 것을 염두에 둘 것.

 ㆍ타협안을 염두에 둘 것.

Instruction 종류 MIPS 예시 SPEC2006 Int SPEC2006 FP
산술(arithmetic) add, sub, addi 16% 48%
데이터 교환(data transfer) lw, sw, lb, lbu, lh, lhu, sb, lui 35% 36%
논리(logical) and, or, nor, andi, ori, sll, srl 12% 4%
조건(cond), 분기(branch) beq, bne, slt, slti, sltiu 34% 8%
점프(jump) j, jr, jal 2% 0%

 

 

Comments

잘못된 정보가 있다면, 꼭 댓글로 알려주세요(비로그인 익명도 가능).

여러분의 피드백이 저와 방문자 모두를 올바른 정보로 인도할 수 있습니다.

감사합니다. -현록

후원해주실 분은 여기로→