今日最新！AI契约论④：AIGC产业链发展车驰船快，风险暗礁“涌现”

2023-05-31 19:37:23 来源：21世纪经济报道编辑：

21世纪经济报道记者郭美婷蔡姝越实习生胡暄悦麦子浩广州、上海报道

编者按：

(资料图)

在2023年过去的几个月里，各大公司抢滩大模型、GPT商用化探索、算力基础设施看涨……如同15世纪开启的大航海时代，人类交往、贸易、财富有了爆炸性增长，空间革命席卷全球。变革同时，也带来了秩序的挑战，数据泄露、个人隐私风险、著作权侵权、虚假信息......此外，AI带来的后人类主义危机已然摆在桌面，人们该以何种姿态迎接人机混杂带来的迷思？

此刻，寻求AI治理的共识、重塑新秩序成了各国共同面对的课题。南财合规科技研究院将推出AI契约论系列报道，从中外监管模式、主体责任分配、语料库数据合规、AI伦理、产业发展等维度，进行剖析，以期为AI治理方案提供一些思路，保障负责任的创新。

在AIGC高速成长的浪潮下，其关联产业链上的各环节均在酝酿着一场技术“质变”。

“卖铲人”英伟达近期成了这波技术浪潮下的最大赢家之一。由于其主营产品GPU（图形处理器）在生成式AI应用中提供不可或缺的底层硬件动力，英伟达在近日交出的一季报中预测，其在2024财年Q2的销售额或将达到110亿美元。年初至今，这家美国公司股价涨幅已猛增166%，市值逼近万亿。

“这一切的引爆点皆是生成式AI技术。”英伟达CEO黄仁勋在接受媒体采访时表示。他同时指出，目前，CPU（中央处理器）的发展速度已经放缓，加速计算（Accelerated Computing）成为了未来探索的大方向。

“紧接着，杀手级应用出现了。”黄仁勋说。

回过头来看，今年以来，各路AI大模型纷纷涌现，搭载大模型的ChatGPT、Bard、New Bing、文心一言、通义千问等生成式AI应用亦层出不穷。

虽然这些应用是否已成为“Killer App”还有待商榷，但不可否认的是，ChatGPT在推出仅两月后便交出了日活突破1亿的成绩单，足以证明AIGC应用的商业价值和发展前景已被市场认可。

不过，尽管生成式AI技术以革新产业的面貌席卷了科技界，催化了生产流程升级转型，行业也在密切关注，在这项技术“野蛮生长”的背后，它的产业链具体是由哪些环节构成？在各层级产业链深入探索这项技术的过程中，可能会遇上哪些“暗礁”？

产业链图谱：数据-算力-模型-应用

严格来说，业内热议的AI大模型实际上分为两类：决策式AI和生成式AI。

决策式AI主要应用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体，生成式AI则通过学习归纳已有数据后生成全新的内容，也能解决判别问题。而掀起这轮AI技术浪潮的正是后者。

“AIGC”又称“生成式AI”（Generative AI）AIGC(AI-Generated Content)即人工智能自动生成内容，被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。其萌芽可以追溯到上世纪50年代。

彼时，人们开始探索如何利用人工智能技术来生成各种类型的内容，但受制于所在时代的科技水平，AIGC的应用始终停留在实验室中。

2006年，深度学习算法取得巨大突破。接下来人工智能技术的持续进步，AIGC逐渐被应用于电影、游戏、音乐等多个领域，并在2021年底ChatGPT的崭露头角而进入大规模爆发时代。

发展至今， AIGC产业链已经逐渐成形。业内普遍将其分为四层架构：数据层、算力层、算法/模型层、商业化应用层。

（AIGC产业链图谱。制图/南财合规科技研究院、21世纪经济报道记者）

数据层包括数据提供、数据分析以及标注等环节。AIGC的诞生需要海量的数据资源，公开资料显示，ChatGPT基于8000亿个单词的语料库（或45TB的文本数据），包含了1750亿个参数。8000亿是ChatGPT的训练数据，1750亿是它从这些训练数据中所学习、沉淀下来的内容。

算力层指AI训练的基础设施，包括数据中心、服务器，以及高性能的AI芯片。据华泰证券测算，训练一次ChatGPT模型（13亿参数）需要的算力约27.5PFlop/s-day，即以1万亿次每秒的速度进行计算，需要耗时27.5天；而ChatGPT单月运营需要算力约4874.4PFlop/s-day。

算法/模型层主要包括自然语言处理（NLP）、计算机视觉（CV）、音视频、多模态等各种大模型和算法。当前，国内正在上演“百模大战”，百度、阿里巴巴、腾讯等大厂纷纷在大模型领域持续发力。

商业化应用层则涵盖文本、音频、图片、影片的生成等，目前更多地与互联网行业结合，未来或将进一步赋能传统行业的数字化转型。

人工智能公司亮风台高级产品总监魏超群告诉21世纪经济报道记者，若将AIGC整体产业链架构比作一家工厂，那么生产的原材料就是大数据，算力充当着日夜运转的机器，算法或模型是忙忙碌碌的工人，最终生产出来的产品是AIGC在各场景下的应用。

“这几个层次相互制约、相互促进。”魏超群提到，从发展历程来看，最初制约AI发展的是算力上的不足，在算力获得突破后，模型才得以继续训练。后来，算法又成为了瓶颈，而数据是破题良方。随着喂养数据量的提高，算法的性能也随之提升。

因此，AIGC的火热出圈，也为其背后的产业链打开了一片市场。据东吴证券预计，AIGC在内容生成中的渗透率将快速提升，应用规模快速扩增，预计2030年AIGC市场规模将超过万亿元人民币。

新的机遇已然出现。“虽然目前产业链的部分赛道已经形成了赢者通吃的局面，如CPU和GPU的行业龙头已经出现。在大模型层面，各家的优劣还无法做出比较，估计未来也很难形成赢者通吃的局面，因为谷歌发展多年的AI，结果最后被微软超过了。所以目前市场的局面还不太明朗。”魏超群表示。

除了目前仍处于风口浪尖的AI大模型的开发外，亮风台预判，算力基础设施企业跟随着AI行业发展，能够保持一定增长，但不会为非常热门的投资方向，其盈利能力也较为有限。但AI大模型的提升亟需更加精准的数据，从事数据清洗、转换、分类等的企业也可能成为下一个风口。

发展危机：大模型和数据风险

AIGC产业欣欣向荣的背后，存在潜藏的风险。

单从技术上看，天使投资人、知名互联网专家郭涛认为，我国硬件基础设施发展迅速，政策支持和资金扶持力度都较大，但技术发展相对欧美仍有一定落后。当然，在某些垂直领域，如人脸识别等大规模应用场景和生态支撑相关的技术，我国又是超前的。同时，我国的应用落地速度也更快，AIGC的技术在客服、数字人、制造、设计等领域已经有一定规模的应用。

另外，AI大模型和大数据处理分别作为当下和未来下一个行业风口，同时也是最容易带来安全和伦理风险的环节。

多位受访专家提到了数据层的数据安全和隐私保护问题。而训练数据的不合规，也往往将进一步引发后续模型及其所生成内容的伦理风险。

北京大成律师事务所高级合伙人肖飒认为，当前数据层根据AI在训练、测试、生成等阶段受到监管规定的不同，而存在不同的风险和义务。数据收集时，存在侵犯个人信息或他人数据权益的风险；在数据处理阶段，存在使用、泄漏商业秘密之风险；在数据跨境阶段，存在数据跨境流通违法的风险。

北京理工大学法学院助理教授裴轶则向21记者指出，与互联网平台中的“推荐算法”不同，生成式算法可以从头开始生成全新的数据，而不仅仅是基于已有数据的推荐或预测，通常需要大量的训练数据来学习数据的分布。

这种特性给AIGC产业链上的企业及消费者均带来了不确定性。对于利用AI大模型生成内容的消费者而言，由于AIGC生成的内容可能缺乏人工审核和验证，存在信息准确性和可信度的问题，可能对消费者造成误导和损害；同时，在AIGC应用中，消费者的个人信息可能被用于生成个性化内容。这可能涉及到个人隐私和数据安全的风险，例如未经授权的数据收集、滥用个人信息等；此外，AIGC算法的训练数据和算法本身可能存在偏见，导致生成的内容偏向特定人群或产生歧视性结果。这可能对用户的体验、公平性和社会平等性产生负面影响。

面向企业，裴轶表示，企业在使用AIGC技术时，需要确保遵守适用的法律法规，尤其是涉及用户数据和隐私保护的规定；此外，企业应对使用AIGC技术所产生的内容质量和准确性承担责任，如果生成的内容存在错误、冒犯性言论或不当信息，可能损害企业的形象和声誉；版权和知识产权同样值得关注，使用AIGC技术生成的内容可能涉及他人的版权和知识产权；最后，还要关注AIGC技术应用过程中可能存在的人工智能失控的风险，如果算法出现错误、意外的结果或者被滥用，可能导致不可预见的后果和潜在的法律责任。

（AIGC各产业链环节中可能存在的风险。制图/南财合规科技研究院、21世纪经济报道记者）

统筹：王俊

记者：郭美婷蔡姝越胡暄悦麦子浩

制图：蔡姝越

关键词：

产业链图谱：数据-算力-模型-应用

发展危机：大模型和数据风险

AIGC产业欣欣向荣的背后，存在潜藏的风险。

新视野

资讯

焦点