大模型概念 | Aidenz

评价指标

准确率和精确率

混淆矩阵：

真实 \ 预测	预测为正	预测为负
实际为正	TP	FN
实际为负	FP	TN

TP（True Positive）：实际为正，预测为正
TN（True Negative）：实际为负，预测为负
FP（False Positive）：实际为负，预测为正
FN（False Negative）：实际为正，预测为负准确率：

acc= \frac{TP+FN}{TP+TN+FP+FN}

精确率：在所有“预测为正”的样本中，有多少是真的正例。

Precision=\frac{TP}{TP+FP}

rouge：摘要任务
BLEU：机器翻译评价。统计生成文本与参考文本的 n-gram 重合程度。

在大型语言模型架构中，采用混合专家（Mixture of Experts, MoE）层的主要目的是为了什么: 在不显著增加每个输入token推理成本的情况下，大幅扩展模型的总参数量，以提升模型容量。

大语言模型（LLM）的 In-Context Learning (ICL) 能力主要依赖于其架构中的哪个核心机制，使得模型能够在不更新任何权重参数的情况下，根据输入中提供的少数示例来执行新任务？ In-Context Learning（ICL）能力允许大语言模型（LLM）在推理时根据输入中的少数示例执行新任务，而不更新模型权重参数。这主要依赖于Transformer架构中的自注意力机制（Self-Attention），因为它使模型能够动态关注输入序列的上下文信息，包括提供的示例，从而适应新任务。

合专家模型（Mixture of Experts, MoE）是当前构建超大规模语言模型的一种重要架构。关于 MoE 模型，以下哪个陈述是正确的？ MoE模型的核心优势是总参数量大但稀疏激活，即每个token仅激活少数专家（如top-k专家），从而显著降低单次前向传播的计算成本（FLOPs per token），使其远低于同参数量的稠密模型。

在使用AI大模型进行推荐系统时，“冷启动”问题指的是什么？新用户或新产品缺乏数据支持

在大模型训练中，为减少显存消耗通常采用梯度累积技术。以下关于梯度累积的正确描述是？将多个小批次梯度的平均值用于参数更新

在大型语言模型架构中，采用混合专家（Mixture of Experts, MoE）层的主要目的是为了什么？不显著增加计算成本的情况下，大幅提升模型参数规模与表达能力。

在指令微调阶段，相比SFT（监督微调），RLHF的主要优化目标是？在指令微调阶段，相比SFT（监督微调）通过监督数据最小化损失函数，RLHF的核心流程是：首先训练一个奖励模型来预测人类偏好，然后使用强化学习（如PPO）优化语言模型策略，其主要优化目标是最大化这个人类偏好奖励信号，使模型输出更符合人类偏好与价值对齐，而不仅仅是模仿训练数据。 SFT 的优化目标:学习如何按照示范数据生成正确答案。 RLHF 的优化目标：优化模型输出，使其更符合人类偏好（如有用性、安全性、自然度等）

在大语言模型中引入稀疏混合专家（Sparse Mixture of Experts, SMoE）架构，其最主要的设计目标是？在大幅增加模型总参数量的同时，通过路由机制使得每次推理仅激活一小部分参数，从而显著降低单次前向传播的计算成本。