Contents

本文最后更新于 2026年1月13日。

基于 Embedded Coder (ert.tlc) 的 Simulink R2024b 仿真加速与 MEX 二进制文件生成技术深度研究报告

在现代嵌入式系统开发与高精度算法验证领域，Simulink 已不仅仅是一个简单的控制逻辑仿真工具，它已演变为一个支撑大规模计算、多学科融合的复杂仿真平台。随着 R2024b 版本的发布，MathWorks 在仿真性能优化、代码生成效率以及异构硬件支持方面引入了多项里程碑式的改进。对于使用 Embedded Coder（基于 ert.tlc 系统目标文件）的高级用户而言，通过生成编译型的 MEX 二进制文件来替代解释型执行，是提升仿真速度、缩短算法迭代周期的核心手段。

仿真性能演进与编译执行的理论基础

Simulink 的执行机制可以被视为一个多层级的架构，从最底层的 Normal 模式（解释执行）到最高效的 Rapid Accelerator 模式（脱离 MATLAB 进程执行）。解释执行模式虽然提供了最灵活的调试能力和即时的参数修改反馈，但在处理包含大规模矩阵运算、深层递归或高频离散事件的复杂模型时，其调度开销往往占据了总计算时间的显著比例 1。

编译执行的本质是将 Simulink 的图形化逻辑转换为高度优化的 C/C++ 源代码，并利用生产级编译器（如 MSVC 2022 或 GCC 13.x）将其转化为机器码。在 R2024b 中，这一过程通过 Embedded Coder 得到了进一步强化。ert.tlc（Embedded Real-Time）系统目标文件与通用的 grt.tlc（Generic Real-Time）最大的不同在于，它产生的代码不包含冗余的仿真开销，而是专注于产生紧凑、高效的生产级代码 3。当这种代码被包装在 MEX（MATLAB Executable）外壳中时，Simulink 仿真引擎不再需要逐个解析每个模块的方法，而是直接调用预编译的二进制函数指针。

从 SimStruct 到 rtModel 的架构跨越

深入 MEX 二进制文件的内部，数据结构的演进是决定计算速度的关键因素。在传统的仿真目标中，代码生成器生成的是庞大的 SimStruct 数据结构。SimStruct 作为一个通用的仿真容器，包含了模块参数、状态、采样时间以及众多的仿真辅助标志，这导致了较高的内存寻址开销 5。

相比之下，ert.tlc 采用了 rtModel 数据结构。rtModel 是专门为生产代码设计的紧凑型结构，它去除了 SimStruct 中与最终部署无关的所有字段，实现了对模型状态和参数的最精简封装 5。这种“剪枝”行为在 R2024b 中表现得尤为彻底。通过减少数据结构的体积，生成的二进制文件在运行时能够更好地适配 CPU 的一级和二级缓存（L1/L2 Cache），减少了由于缓存未命中（Cache Miss）导致的处理器流水线停顿，从而在微观层面上显著提升了单步仿真计算的吞吐量 5。

R2024b 中的执行流控制改进

在 R2024b 环境下，生成的二进制文件对仿真停止时间（Stop Time）的处理也表现出更高的确定性。Embedded Coder 现在始终优先遵循生成的静态主函数模块中指定的停止时间，并利用 RTM（Real-Time Model）标志位，如 error_status 和 stopRequestedFlag，来更快速地响应仿真中断请求 5。这种机制确保了 MEX 文件在高速运行时，依然能够与 Simulink 求解器保持精准的步进同步，而不会因为异步信号处理而产生额外的 CPU 抖动。

核心加速路径：软件在环（SIL）模式下的 MEX 生成

对于追求极致计算速度的用户，利用 R2024b 的“软件在环”（Software-in-the-loop, SIL）工作流是生成高性能 MEX 二进制文件的首选路径。SIL 模式不仅用于验证代码与模型在数值上的一致性，它本质上就是一种通过生产级编译器实现的仿真加速方案 6。

Top-model SIL 的实现机制

在 R2024b 中，通过 SIL/PIL 管理器（SIL/PIL Manager）配置顶层模型的 SIL 仿真，会触发一系列复杂的自动化构建过程。首先，Simulink 引擎会扫描模型，将所有的子系统和引用模型转化为 ert.tlc 兼容的 C/C++ 源代码。接着，系统会自动生成一个 MEX 包装器函数，这个函数作为 MATLAB 进程与编译代码之间的桥梁 8。

配置维度	推荐设置（加速导向）	理论依据
系统 Under Test	Top model	消除子系统间的接口转换开销
仿真模式	SIL	利用本地编译器生成针对 Host CPU 优化的二进制文件
硬件实现选项	Host Computer (RTM)	避免目标硬件指令集的模拟器开销 8
便携式字长	Off	允许编译器使用宿主机原生的 64 位寄存器宽度 8

R2024b 的一个重大改进是 SIL 模式下的“快速重启”（Fast Restart）支持。在传统的构建流中，修改一个可调参数往往意味着重新编译整个 MEX 文件。而现在，通过 rtModel 的参数映射优化，用户可以在 SIL 运行期间即时调整参数，而无需重新经历耗时的 C 代码编译阶段，这对于大规模蒙特卡洛仿真（Monte Carlo Simulation）的性能优化至关重要 8。

子系统级编译与 SIL Block 的深度整合

当模型中仅有部分算法（如复杂的自适应滤波器或神经网络预测器）是性能瓶颈时，可以采用子系统级的 MEX 生成策略。通过在配置参数中将“Create block”设置为“SIL”，并右键点击子系统选择“Build This Subsystem”，Simulink 会生成一个全新的、完全由编译代码驱动的 SIL 模块 8。

这种“模块化加速”模式在 R2024b 中具有极高的灵活性。生成的 SIL Block 封装了生产级的 C 代码，并支持全功能的性能分析（Execution Profiling）。开发者可以通过该模块直接获取算法在宿主机 CPU 上的执行周期计数，进而针对性地优化 C 语言层面的循环结构或内存访问模式 8。

R2024b 编译器基础设施与性能调优

MEX 二进制文件的质量在很大程度上取决于宿主机编译器的配置。R2024b 对编译器的支持进行了严格定义，并引入了更精细的编译过程控制选项。

支持的编译器环境与设置

在 R2024b 中，Microsoft Visual C++ 2022 (MSVC) 是 Windows 平台上生成高性能 MEX 文件的首选编译器。虽然免费的 MinGW 8.1 依然可用，但 snippet 材料明确指出，MinGW 在某些高级性能剖析特性（Code Profiling）上存在局限性 12。

用户必须确保在 Visual Studio 安装过程中勾选了“使用 C++ 的桌面开发”（Desktop development with C++）工作负载。这是因为 Embedded Coder 生成的 ert.tlc 代码在 R2024b 中会大量引用现代 C++ 标准库和多线程扩展（如 OpenMP），缺失这些组件将导致 MEX 构建失败或性能显著下降 13。

编译优化标志的注入

为了最大化 MEX 二进制文件的执行速度，用户应充分利用“Build configuration”选项。在“Code Generation”窗格中，将“Build configuration”从默认的“Faster Builds”切换为“Faster Runs” 18。

$V_{o p t} = {/O2, /GL, /arch:AVX2}$

通过在“Toolchain details”中手动添加编译器标志，可以激活高级优化功能：

全程序优化 (Whole Program Optimization, /GL)：允许编译器在链接阶段跨源代码文件进行内联分析 18。
高级矢量扩展 (AVX2/AVX-512)：R2024b 在处理大规模信号流时，可以自动生成针对这些指令集的 SIMD 代码。
内联函数展开：通过设置 coder.inline('always')，Embedded Coder 可以强制将关键算法路径上的函数调用直接替换为代码块，消除函数调用时的压栈和跳转开销 20。

算法层面的二进制性能增强技术

生成 MEX 文件后，其计算速度的极限最终取决于生成的 C 代码本身的效率。R2024b 引入了一系列新的控制指令，允许开发者通过 MATLAB 指令直接指导代码生成过程。

循环优化的第二级洞察

在处理复杂的动态系统仿真时，循环嵌套往往是 CPU 时间消耗的大户。R2024b 提供的 coder.loop API 允许用户对生成的 C 代码进行微观手术式的优化 20。

循环优化指令	作用机制	适用场景
`coder.loop.tile`	循环分块，提高 L1/L2 缓存数据复用率	大规模矩阵运算
`coder.loop.interchange`	交换内层和外层循环，确保存储访问的连续性	行优先与列优先存储转换 20
`coder.loop.parallelize`	基于 OpenMP 的自动多线程化	独立迭代次数较多的循环
`coder.unroll`	消除循环计数和分支预测开销	迭代次数固定的小规模循环 20

通过这些指令，Embedded Coder 能够生成比手工 C 代码更具硬件感知力的二进制文件。例如，在 R2024b 中，coder.loop.parallelize 现在能够更好地处理包含缩减操作（Reduction Operations）的循环，使得开发者可以在多核宿主机上实现近乎线性的计算加速 20。

内存管理策略的性能影响

内存分配是仿真速度的隐形杀手。Embedded Coder 在 ert.tlc 配置下，推荐使用静态内存分配。R2024b 允许用户配置“动态内存分配阈值”（Dynamic memory allocation threshold）。通过将此阈值设为一个极大值（如 $10^{9}$ 字节），可以强制二进制文件在启动时一次性分配所有必要的中间缓冲区，从而避免在仿真步进循环中调用昂贵的 malloc 或 free 系统调用 20。

此外，启用“缓冲区重用”（Buffer Reuse）选项可以使 Embedded Coder 智能地识别不重叠的信号生命周期，让多个信号共享同一块内存区域。这不仅降低了 MEX 文件的内存占用，更重要的是，它将更多的活跃数据压缩进了 CPU 的二级缓存中，通过减少总线流量换取了更高的主频效率 22。

R2024b 独有的性能评估与量化分析工具

生成 MEX 二进制文件后，如何量化加速效果并寻找进一步的优化点？R2024b 提供了两款全新的工具：coder.timeit 和 coder.perfCompare 20。

严谨的性能度量：coder.timeit

传统的 tic/toc 或 cputime 在度量 MEX 执行时间时，容易受到 MATLAB 数据交换开销和操作系统调度的干扰。coder.timeit 采用了一套内部启发式算法，能够自动确定最佳的运行次数，并在统计学上剔除数据传输（Data Transfer）的开销，只测量 C 代码核心的纯净执行时间 20。

$T_{m e d i a n} = coder.timeit (^{'} s u b s y s t e m_m e x^{'}, n u m O u t p u t s, r u n t i m e A r g s)$

这一工具的引入标志着 Simulink 仿真加速进入了“微秒级精度”时代。通过对比不同编译器配置下的 coder.timeit 结果，开发者可以获得关于加速策略的第三级洞察：某些看起来激进的优化（如过度的循环展开）可能会因为引起指令缓存溢出（Instruction Cache Overflow）反而导致性能下降 20。

性能对标分析：coder.perfCompare

coder.perfCompare 函数则更进一步，它可以自动生成包含均值、中位数、最小值和标准差的综合对比表，直观展示原模型与 MEX 二进制文件之间的加速比 20。

实现方案	中位数运行时间 (s)	速度提升 (Speedup)	内存开销 (KB)
MATLAB 解释执行	0.8452	1.00x	–
默认构建 (MEX)	0.1245	6.79x	128
AVX2 矢量化 (MEX)	0.0312	27.09x	132

通过这种对比，开发者可以建立起“性能与复杂度”的关联模型，决定是否值得为了进一步的 10% 速度提升而引入更复杂的硬件特定的库调用（如调用 BLAS/LAPACK） 20。

生产级代码生成的特殊优化：针对 ert.tlc 的精细化控制

当使用 ert.tlc 生成二进制加速文件时，一些 Embedded Coder 特有的配置选项能够带来超越常规加速器的性能表现。

参数内联与固定点加速

将“Default parameter behavior”设为“Inlined”在 R2024b 中已不再是单纯的数值替换。Embedded Coder 现在会根据内联参数的值进行死代码消除（Dead Code Elimination）。例如，如果一个增益模块的值被内联为 1.0，生成的二进制文件中将完全移除该乘法指令 23。

此外，对于需要极致确定性的实时仿真系统，结合 Fixed-Point Designer 将浮点运算转换为二进制固定点运算，可以利用整数单元的超标量执行能力 29。在 R2024b 中，生成的固定点 MEX 文件可以配合“溢出保护删除”选项，进一步压榨 CPU 的计算潜能 27。

内置数学库的回调集成

Embedded Coder 允许二进制文件直接调用高效的数学库（如 FFTW、BLAS 或 LAPACK）。在 R2024b 的配置面板中，用户可以指定“Custom BLAS library callback” 20。

这意味着，当 Simulink 模型执行大规模矩阵求逆或离散傅里叶变换时，MEX 二进制文件不再运行通用的生成代码，而是跳转执行经过 Intel 专家高度优化的 MKL（Math Kernel Library）函数。这种“外挂加速”模式通常能为线性代数密集型模型带来一个数量级的速度飞跃 20。

基于引用模型与大规模系统的并行构建策略

在 R2024b 的企业级工作流中，单一的大型模型通常被拆分为多个“引用模型”（Model References）。为这类系统生成 MEX 加速文件需要特殊的并行化策略 1。

并行构建加速

启用“Enable parallel model reference builds”选项后，Simulink 将利用 MATLAB Parallel Computing Toolbox 分发构建任务 34。宿主机的每个核心都将独立承担一个引用模型的 C 代码生成和 MEX 编译任务。这种“多进程并行编译”显著缩短了从模型修改到二进制文件就绪的等待时间 35。

仿真目标重用与缓存技术

R2024b 增强了“Simulink 缓存文件”（.slxc）的作用。当多个开发者或持续集成（CI）服务器共享同一个项目时，Simulink 可以直接提取预编译的 MEX 二进制产物，避免重复的 ert.tlc 调用过程 33。这一特性对于在大型工程团队中通过二进制分发来提升整体仿真效率具有战略意义。

高级用户指南：手动生成与 TLC 自定义

虽然自动化工具已非常成熟，但在某些特定场景下（如集成复杂的非标准硬件加速库），手动生成编译型 S-Function MEX 文件仍然是不可替代的技术手段。

使用 rtwsfcn.tlc 生成自包含加速模块

rtwsfcn.tlc 是 Simulink Coder 提供的一个专门用于生成 S-Function 二进制文件的系统目标文件。它与 ert.tlc 的主要区别在于，它生成的代码会自动包含 Simulink 引擎所需的全部外壳代码，方便在其他模型中以普通 Block 的形式进行分发 36。

手动构建流程通常包括：

设置 SystemTargetFile 为 rtwsfcn.tlc 36。
配置生成选项以包含 mdlRTW 路径。
执行 slbuild 或 rtwbuild 命令，获取生成的 .mexw64 文件 18。

深度定制：TLC 变量的微调

对于 Embedded Coder 的核心用户，深入调整 TLC（Target Language Compiler）变量是控制二进制行为的最高手段。在 ert.tlc 构建过程中，可以通过设置 TLCOptions 来修改 MaxStackSize（防止深层递归导致栈溢出）或启用 RemoveFixptWordSizeChecks（删除固定点字长校验，进一步提速） 39。

$T L C_{o p t} = {MaxStackSize = 8192, RemoveFixptWordSizeChecks = 1}$

这种级别的优化属于第二级和第三级洞察的范畴：它不仅通过减少指令执行数量提速，更通过精确控制二进制文件的内存布局，使其在特定的处理器流水线架构上表现出更高的指令级并行度（Instruction-Level Parallelism, ILP） 39。

R2024b 对 AI 与深度学习模型的二进制加速支持

随着人工智能技术融入控制系统，R2024b 为生成的二进制文件引入了针对神经网络的特殊支持。通过 Embedded Coder 配合 Deep Learning Toolbox，可以生成包含专用加速逻辑的 MEX 二进制文件 40。

Halide 代码集成

R2024b 支持通过 Embedded Coder 生成 Halide 代码。Halide 是一种专门为图像处理和阵列计算设计的编程语言，它能自动实现复杂的算子融合（Operator Fusion）和瓦片式调度（Tiling Schedule） 24。当生成的 MEX 文件包含 Halide 加速模块时，原本在解释模式下极其缓慢的深度神经网络推理过程，在编译模式下可以实现数十倍甚至上百倍的计算速度提升 24。

eNPU 与硬件加速模拟

对于针对 Qualcomm Hexagon 等高性能处理器的开发者，R2024b 的 Embedded Coder 支持在本地 MEX 文件中模拟硬件 NPU 的行为。通过启用“Use hardware for AI network simulation”参数，生成的二进制文件会尝试调用宿主机的 GPU 或专用的神经网络指令集，确保仿真速度能够支撑复杂的自动驾驶或机器人路径规划算法的实时性要求 40。

结论与行动建议

在 Simulink R2024b 环境下，通过 Embedded Coder (ert.tlc) 生成 MEX 二进制文件已成为高性能仿真的标准配置。这一过程并非简单的“一键操作”，而是一个涉及编译器调优、算法重构、内存管理及硬件指令集适配的多维度优化工程。

为了实现最佳的加速效果，建议采取以下系统化流程：首先，利用 R2024b 新引入的 coder.perfCompare 工具锁定性能瓶颈，并为优化建立基准线 20。其次，优先采用 SIL 模式配合“快速重启”特性，在保持调试能力的同时获取编译执行的速度红利 8。随后，在 ert.tlc 的优化面板中激活参数内联、缓冲区重用以及 SIMD 指令集扩展，以消除微观层面的执行冗余 23。最后，针对大规模计算场景，引入并行构建与外部优化数学库的回调机制 20。

这种基于模型编译的加速策略，不仅能够显著提升当前的仿真效率，更由于使用了 ert.tlc 这一生产级目标文件，确保了在研发早期阶段获得的加速成果能够无缝地转化为最终产品在目标硬件上的卓越表现。随着 R2024b 持续强化对 AI 硬件加速和云端仿真工作流的支持，掌握 MEX 二进制生成技术将成为系统工程师应对未来复杂性挑战的核心竞争力。

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31