Lecture 05 Machine-Level Programming I： Basics

#week3 #csapp

📄 正在加载 PDF...

机器程序部分：关心执行程序所执行的一串独立的指令

所谓机器程序

实际目标代码 -- 一串字符 -- 看不懂
更清晰的文本形式
- 汇编代码

机器代码在机器之上编写的程序之下了解机器代码可以更好的理解我们的程序正在尝试做什么我们的机器尝试做什么

本课程只是基于特定语言 64位 Intel指令集

History of Intel processors and architctures

Intel x86 Processors

x86是对intel的口头称谓 -- 因为第一个芯片叫 8086, 之后推出了8286(跳过了81),8386 共同点86 所以叫 x86

x86 就是一种指令集的语言也有很多古怪的东西有点像SQL一样

RISC vs. CISC -RISC: 精简指令集计算机 RISC给之前的处理器命名为CISC

386开始转换成实际可以运行Unix Linux的东西 -- 因为扩展到了32位 --删除了一些奇怪的寻址 -- 变得更加通用

Pentium 4E -- 64位一件很聪明的事儿是不用更换软件的情况下更换硬件 32位在64位机器上依然适用

之后遇到了功率的问题 --- 热 04年后出现多核心

4个核心共享缓存

DDR是链接到主存储器的方式 -- DRAM

PCI 与外围设备的连接

x86 Clones: Advanced Micro Devices(AMD)

AMD历史性竞争对手

ARM架构 -- 比x86机器功耗低更简单

但是这个公司没有出售处理器只是设计处理器 -- ARM只是手机处理器中的一部分

C, assembly, machine code

Definitions

Instruction set architecture: 指令集架构 -- 一种抽象最好的实施指令的操作 --硬件工作者
microarchitecture: 微结构
Code Forms: - Machine Code - Assembly Code

PC
Register file
Condition codes -- static rigister
Memory

Turning C into Object Code

Compiling Into Assembly

%-寄存器的实际名称

pushq - 压栈 popq -- 出栈 movq--从哪到哪 call 调用 ret--返回

.s 文件-汇编文件 .d 反汇编文件

转变为一个汇编程序

gcc -Og -S sum.c

调用gcc时实际上调用的不仅仅是一个程序

整个程序序列来完成编译的不同阶段

-S 是stop 只做第一部分转变为汇编代码

-Og 是我希望编译器做什么样的优化的规范如果什么也不加就是不优化实际上生成的代码很难看懂

挑出来就是上面ppt的汇编语言

但是有一些别的内容与代码文本并不是直接相关他们以一个.开头指示他们是别的东西

他们与某些重要信息有关要给debugger提供使他能够定位程序的各个部分

比如有一些再告诉编译器这是一个全局定义的函数 -- 但在一开始的时候不用过多的去考虑

assembly characteristics: Data Types

integer: 有许多不同类型的整数类型 size of 1, 2, 4 or 8 bytes --不区分有符号数和无符号数的存储方式甚至地址或指针都以数字形式存储在计算机中
float: 一系列字节后面lecture会讲
array, class, structure 不存在与机器层级

Assembly Characteristic: Operations

汇编级编程的一个特点每条指令能做的事情都非常有限 -- 基本上一条只能做一件事情

其实就像应用视角的操作系统2024说的一样 C语言算是高级语言中的汇编语言因为我们可以将for循环之类的东西写成一条只干一件事儿的那种simple C的形式

Object Code

gcc -c sum.s -o sum.o

objdump能够反汇编目标文件并展示其中的机器码和汇编指令。

objdump -d sum.o

但其实从9到1a 用了17 18个byte

example

变量名--丢失了到了汇编层级

gcc -Og sum.c -o sum

objdump -d sum

gdb也能做到

Assembly Basic: Register, operands, move

%r版本 64bit %e版本 32byte 低32byte

除此之外还可以用低16byte 和 1byte

在远古时代他们每一个都有特定的用途

后来消失了

粉红色的那个Register called stack pointer

ebp是base pointer 后来不怎么用了

moving data

注意不允许从一个内存去另一个内存

()表示地址注意可以做一些运算得到别的地址这对于访问不同的数据结构非常有用

example of simple addressing modes

我写了个code 跟着ppt上的example

#include <stdio.h>
#include <stdlib.h>
void swap(long *xp, long *yp) {
    long t0 = *xp;
    long t1 = *yp;
    *xp = t1;
    *yp = t0;
}
int main(int argc, char *argv[]) {
    long x = atol(argv[1]);
    long y = atol(argv[2]);
    printf("交换前: %ld, %ld\n", x, y);
    swap(&x, &y); // 传递变量的地址
    printf("交换后: %ld, %ld\n", x, y);
    return 0;
}