深度学习的训练量级远超人类可承受的范畴,它借助巨大的算力与数据,以一种近乎“暴力”的方式逼近技能层面的掌握。在艺术学习的类比中,这种方式几乎就是“把全世界的画都临摹一遍”,靠数量逼出质量。当参数规模达到一定阈值、算力持续提升、数据规模达到一定量级后,模型开始展现出一种“涌现能力”。深度学习的本质是规模学习,它的模型越大、数据越多,能力越强。不需要像人类那样经历漫长的经验积累过程,而是借助机器规模与算力快速构建知识结构。从监督学习扩展到自监督学习,它就像一个废寝忘食的沉浸式艺术学习者。
然而,这种暴力学习仍然是技能性的,尚未真正进入到“观念层面”。深度学习能模仿艺术风格,但无法判断自身的模仿是否具有意义。
(四)基础模型训练阶段:机器第一次接近人类学习结构
基础模型(foundation model)的出现,标志着机器学习第一次具备了与人类教育结构相仿的训练体系。基础模型的训练并不是为了执行某一项单一任务,而是为了获得多模态、多任务的基础能力。它们通过海量的自监督学习建立起“世界模型雏形”,可以类比于一个拥有理解语言、理解图像、理解语境的能力的人——相当于我们所说的素质教育或通识教育。
在基础能力之上,人类反馈还为模型注入了价值判断、美学标准和行为规范,并具体通过偏好优化(preference optimization)和对齐训练(alignment)等方法来实现。这意味着使用者有能力改变工具,把工具慢慢个性化。这种过程可以称之为微调,也可以理解为一种“文化塑形”。工具越用越“称手”,其原因在于它被不断地对齐到某种人类期望。这相当于在机器身上第一次出现人类教育的四层结构:
1.基础训练(pre-training)——类似于“培养一个感受力正常的人”
2.技能训练(fine-tuning)——让模型具备执行具体任务的能力
3. 知识结构(instruction tuning)——构建广泛的世界理解
4.价值与观念(RLHF)——赋予行为规范、偏好与美学判断,也就是“三观”
这四层结构中,后三层与前一节讨论的艺术学习“技能—知识—观念”三个层级同构。而基础训练,等同于培养出一个感受力、理解力正常的人,开始准备成为一名艺术学习者。
但完成了所有训练阶段的AI仍然不是“创作者”。它仍然缺乏人类创作中最核心的动力:主体经验、生命史、存在感、表达欲。这意味着,机器训练虽然逼近人类学习,但仍然停在创造性的门外。人机共创的问题因此出现。(图2)

图2梁樊、王中谋泥人张彩塑智能生成垂类大模型人工智能艺术2025
三、人机共创时代的训练
当下许多关于人工智能创作的讨论,都忽略了一个基本事实:AI创作并不存在于孤立的机器内部。它目前还依赖于人的介入、人的意图与人的结构性提供,离开人的主动设置与评估,AI不能构成真正意义的“创作主体”。人们也曾经产生幻觉,觉得呼啸的火车和咬合的齿轮似乎有灵魂有意志。今天“硅基生命”的说法夸大其词,把隐喻当作事实,这是对生命的不尊重。但是反过来,和AI共创,人也不跌份。
人与机器的共创关系在历史上屡见不鲜。摄影就是人机共创——生产照相机的厂商,相当于推出大模型的公司。摄影出现之前,丢勒用暗箱来画画,也是人机共创。暗箱这种光学设备本质上也是一种早期模型;它为视觉世界提供了一种新的逻辑,把透视转化为可操作的图像结构。同样,格律诗的格律是一种文字模型,它预设了旋律与节奏,而诗人则在规定的结构中追求变化;填词更进一步,是严格的模板生成。若沿此轨迹理解,AI是人类长期以来与工具和模型共创的最新阶段。