“在整个数据制作过程中,需要关注数据的安全、数据隐私以及数据的合法合规。”顾群业说,现在各国政府都在通过立法来监管生成式人工智能模型。欧盟正在提议一项法律,要求人工智能工具的所有者,披露人工智能语料库是否包含受版权保护的内容。这种公开透明将使版权持有人更容易识别自己的作品被用于哪些语料库,从而寻求赔偿。
构建中华传统工艺语料库
不管人工智能生成的作品是否为“艺术作品”之争的结论如何,人工智能作品的版权保护如何更加规范,AI大量运用于创作领域已是当下不争的事实。而在这片方兴未艾的新蓝海,如何建立我们自己的“话语权”,是顾群业正在努力探索的方向。这也与他四十多岁时的“顿悟”不谋而合。
“对我产生影响的艺术家有很多,无法具体到哪一位。像西方美术史里写到的杜尚、博伊斯等等对我都有影响。因为我在求学期间学到的是西方美术史,所以主要是受到这些艺术家的影响。我过去给学生上课也是在讲观念、讲媒介,实际上这在很大程度上都是西方‘当代艺术’的理论体系。直到我40多岁的时候,才意识到我们应该有自己的理论体系。”顾群业说。
近些年,山东工艺美术学院在潘鲁生教授倡导下,研究中华传统造物观念、造型体系,让顾群业进一步认识到大家对自己的文脉了解太少。“我觉得这就是当前迫切需要解决的问题。我们的艺术实际上有自己的体系但是缺少研究,或者说前人有研究但是我们没有传承下来。挖掘、传承我们自己的艺术体系,是当前的一个大课题。”
而这就牵扯到了人工智能设计与教育的一个基础设施架构——语料库的建设。
在人工智能领域,语料库指的是用于训练人工智能的高质量数据集合。构建语料库一般有这样几个步骤:首先是数据清洗,收集包含多种模态的数据,去除重复的数据、噪音数据以及无关的数据,并将其格式标准化。然后为预处理好的数据添加详细的标注信息,使学习模型可以更准确地理解这些数据。处理好的文本和图像数据作为训练的素材,提供给模型学习,模型就可以生成符合文本描述的高质量图像。
可以说,语料库是生成式人工智能学习和创作的根本来源,人工智能能否生成准确、高质量的作品,完全依赖于语料的高质量和语境的准确,它们对生成作品的质量起到决定性的作用。
“从传统手绘到计算机图形设计,再到今天的人工智能生成图像,可以说,这一轮的AI应用为艺术创作提供了源源不断的创新动力,开辟了生成艺术的新时代。作为艺术家和设计师的‘副驾驶’,图像生成技术的应用极大提高了创意效率,激发出前所未有的表现形式,并拓宽了创作边界。”顾群业说,与此同时,大家也注意到,当下的AI创作,同质化是非常严重的一个问题,其根源就在于语料库不够丰富多元。
虽然语料库越大越丰富,AI就会变得越熟练越智能,但并不是说把大量数据堆在一起就可以产生智能、生成高质量的作品。全面的、有针对性的、高质量的语料库,才会“喂养”出更加智能的AI模型。而且语料库需要不停地动态调整和优化,以保证数据的时效性和有效性。
那么,为什么要建立中华传统工艺语料库?
采访中,顾群业给我们展示了一张由AI生成的众多中国儿童围绕着一个彩狮头的图片,画面中,不管男孩女孩,大家都“共用”一张脸。而且,所有人的面孔都是单眼皮、趴鼻子。“为什么会出现这种问题?这就是外国人对中国人的理解,是按照他们构建的语料库所生成的作品。”