【院士科普】AI大模型的本事来自这5步
【院士科普】AI大模型的本事来自这5步
中国工程院院士、存储系统专家郑纬民
大模型这么有本事,那它的本事究竟是怎么来的?我们从数据获取、数据预处理、模型训练、模型微调、模型推理5个环节来分析。
大模型的核心在于数据,数据获取是第一步。大模型需要海量的数据进行训练,而这些数据最初并不存在,因此第一步就是从全球各地收集数据。无论是文本还是图像,这些数据都需要被收集并存储到系统中。然而,数据的存储过程并不简单。数据量极其庞大,可能涉及数百亿个文件。每个文件都需要被准确地存储,并且要记录其存储位置,以便后续读取和处理。读取数据的过程,就像在偌大的校园里,根据年级、班级等信息找到一位同学一样,具有一定难度。
即使我们成功获取了数据,也并不意味着可以直接用于训练。因为,原始数据的质量往往参差不齐,可能存在充斥广告语、重复数据、格式不统一等问题。因此,数据预处理的目标是清洗数据,去除重复、无用或低质量的内容,并将文件格式统一化。这一过程非常耗时。以GPT-4为例,数据预处理所用的时间几乎占据了整个周期的一半时间。
数据预处理完成后,接下来就是模型训练。这一过程需要大量的计算机及其存储空间,以确保模型能够充分学习数据中的规律和特征。然而,由于数据量巨大,训练过程中可能会出现硬件、软件故障等问题。
为了解决这些问题,我们采取了多种策略。以神威平台十万卡规模训练万亿参数量模型为例,训练过程中,该模型平均每小时会出现一次错误。为了避免从头开始训练,系统会定期保存训练状态(又称为“检查点”),以便在出错时从最近的检查点恢复训练,而不是从头开始。
训练完成后,我们得到了一个基础大模型。然而,这个基础模型可能并不适用于特定垂直领域。例如,如果要将模型应用于医疗领域,基础模型可能缺乏足够的医疗数据支持。因此,模型微调是必要的。微调的过程是在基础模型的基础上,使用特定领域的数据进行二次训练,以使模型能够更好地适应特定任务。这一过程类似于在通用知识的基础上,进一步学习专业知识。
最后一步是模型推理,即模型在实际应用中的表现。AI大模型需要处理大量用户请求,而每一个步骤的推理都可能涉及复杂的计算和存储需求。随着用户数量的增加,存储和计算压力也会急剧上升。为了应对这一问题,系统会采用优化策略,例如只存储重复内容的最终结果,而不是每个请求的中间结果。通过这种方式,系统可以显著减少存储需求,避免因存储不足而导致的崩溃。