科技的快速迭代,从区块链,到元宇宙以及最近的AIGC,科技总是跑在前面并逐渐改变大众生活。
在抖音上,用户只需上传照片或点击屏幕,几秒钟时间系统便可以生成二次元动漫风格的图片,大量的用户乐此不疲地玩着这个特效,这就是AIGC在图像上的一种应用。
当然,AIGC绝不仅仅只能用于图像。最近,昆仑万维发布了昆仑天工AIGC全系列算法模型,模型包括天工巧绘SkyPaint、天工乐府SkyMusic、天工妙笔SkyText、天工智码SkyCode,覆盖图像、音乐、文本、编程等多模态内容生成能力。
作为AIGC领域需求量最大的服务,昆仑天工在出图效果、精确度和速度上在同类产品中处于领先地位,其在增加中文提示词输入能力的同时兼容原版stablediffusion的英文提示词模型,之前用户积累的英文提示词手册依然可以在昆仑天工模型上使用。
图1天工巧绘SkyPaint作品
在中英文匹配方面,昆仑天工使用1.5亿级别的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料字慕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合,这类中文适应模型能力对于国内用户来说是迫切需求。
在模型训练方面,昆仑天工在训练时采用模型蒸馏方案和双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练,使得出图效果可以更加精确。
在图像上,由于各国对AI图像的版权有不同的界定,昆仑天工考虑到用户的需求,目前生成的图像都是不带水印的,这对用户比较友好,可以随取随用。另外,如今昆仑万维依托旗下StarMaker的音乐业务,也为AI音乐的发展打下了坚实的基础。
图2天工巧绘SkyPaint作品
为了让出图效率和质量达到平衡和顶尖,昆仑万维团队通过不断调试模型,眼下出图速度大约10秒内,图片分辨率为*,并且生成的风格与用户指令契合较高。
市面上有些AIGC算法模型也能提供这些功能和解决现实问题,但昆仑天工极为独特的地方在于,AI图像、AI文本和AI编程模型是开源的。昆仑万维把技术开源,真正帮助中小企业做二次开发、提升它们的生产效率,能够拉平它们跟大企业的竞争壁垒,这对于整个行业的非垄断式发展有着重要的推动作用。
基于全球海量用户以及在社交、游戏、内容形成的多场景商业沉淀和顶尖的互联网运营能力,昆仑万维将继续深耕AIGC领域,将长期致力于为AIGC的生态建设贡献一份力量,给全世界的内容创作者提供便利的工具,让大家创造出更加无限的可能性。