开源合规通关秘籍(二)|人工智能大模型许可证

本文转载自“信息通信软件供应链安全社区”

 

近年来,人工智能大模型已从技术实验室走向全球产业化的核心舞台。而这一技术的背后,开源与闭源的博弈、数据版权争议及伦理风险日益凸显。开源虽然加速了AI模型的发展,但缺乏许可证约束可能导致模型滥用或知识产权纠纷。因此,了解AI许可相关的要求、限制、成本以及作用对于开发人员、研究人员、企业以及使用者都至关重要。
 

1 AI大模型许可证类型的特殊性

与传统软件项目不同,AI大模型的开放需明确三大核心组件是否全部开源:

数据集:训练数据的开放可能涉及版权风险(如使用受版权保护的书籍或网页内容);

训练代码:包括模型架构、超参数和优化算法;

模型权重:决定模型能力的核心参数。

目前,OSI正推动开源AI定义1的标准化。其2024年10月发布的开源AI 1.0版本草案强调,真正的开源AI需满足用于任何目的的“可重复训练”与“可自由修改”原则,即必须公开数据集、训练代码与模型权重,否则仅能称为“开放模型”(如Llama 2因未完全开放训练数据而被质疑)。

2 AI大模型许可证类型

常用的AI大模型许可证可以分为以下几个类型:
图片

3 热门AI大模型许可证

截至2025年2月,hugging face上共有140万+大模型,但是仅有35%的模型含许可证,其中使用传统开源许可证的大模型约占比78%,以下为热门许可证Top15。
图片
以上数据均来自huggingface官网2

4 如何选择适合的许可证

在为AI大模型选择合适的许可证时,需要对以下方面进行考虑:

1.确定自己的AI大模型的目标和需求,确定开发方向和计划、企业商业战略等

2.评估需要开源的内容:数据集、训练代码与模型权重

3.确认大模型的目标受众群体(企业与商业用户、开发者社区等)

4.若项目引入了其他开源组件,还需进行许可证兼容性评估

以下为开源许可证选取推荐,必要时可以参考所在领域的类似项目,结合咨询专业人员及律师进行许可证的选取。

图片
随着OSI开源AI定义1.0标准的推进、Meta与DeepSeek等企业的实践探索, AI大模型许可证内容正逐步趋于标准化,通常涵盖三大核心要素:技术开放度(数据集、代码与模型权重)、合规边界(数据版权与伦理约束)和商业友好性(衍生模型的权利归属)。而未来对于“开源AI”的底线标准、数据版权的司法不确定性等许多问题还亟待解决,我们需要更多的合作与思考来确保开源AI的正向发展,从而为未来的AI生态奠定坚实基础。
 

软安源兮SCA是一款开源软件成分分析工具,通过多种检测技术,利用自主可控的分析引擎和强大的基因库,提供开源软件资产识别(SBOM)、安全风险检测、许可合规分析、漏洞监控告警及开源软件安全管理等功能,帮助企业缓解开源软件安全、合规和运维风险,助力构建软件供应链安全保障体系。

image.png
 

参考文献

  1. OSI 开源AI定义:https://opensource.org/ai/open-source-ai-definition

  2. hugging face官网:https://huggingface.co/

     

END

 
 

 

开源合规通关秘籍(一)|深度解析互惠型许可证的合规之道
AI/ML Bill of Materials (AI-BOM):构建安全透明的AI生态
大模型本地部署“暗藏风险,如何构建AI安全体系?
智能IDE插件,让安全编码成为习惯
 
关于软安科技

 

软安科技专注于软件质量和安全检测领域,面向客户场景一站式解决软件生态质量和安全问题。

 

核心团队来自国内外一线厂商,经过三年努力自主开发完成软件成分分析工具、源代码静态测试分析工具、模糊测试工具,打造了与业务场景相结合的行业解决方案,并在汽车、半导体、通信等领域赢得了头部客户的认可。

 

公司在成都、武汉、上海、北京、深圳设有办公机构,可以为客户提供及时专业的售前和售后服务。

 

创建时间:2025-04-11 11:18