从哈尼村落公益到攻克低资源语言模型难题,壁仞如何让算力落地更有温度?
近日,由联合国教科文组织国际创意与可持续发展中心及联合国教科文组织东亚地区办事处联合主办的第五届“创意2030国际论坛”在北京举行。论坛上,主办方正式发布了2025“数字环境下保护与促进文化表现形式多样性示范案例”。
其中,由云南濒危语言文化传播有限公司申报,智译、上海壁仞科技股份有限公司联合协作的“澜湄国家跨境语言AI大模型”项目,凭借对区域语言难题的突破,为破解澜湄流域国家长期存在的交流障碍、经济发展滞后、跨境治理难等深层问题,提供了数字化底层工具,成功入选。
缘起公益:从哈尼村落出发,关注少数民族的语言困境
这一项目的诞生,缘起于一场扎根深山的公益行动。
2024年,智译团队负责人刘畅源作为“梦想行动”志愿者,在云南省普洱市墨江哈尼族自治县开展阅读推广时,发现当地留守儿童普通话沟通能力薄弱、少数民族语言传承困难等问题,而相应的数字化工具严重匮乏。为帮助当地儿童跨越语言沟通壁垒,哈尼语AI系统应运而生。与此同时,鉴于众多少数民族儿童面临同类发展困境,项目逐步从云南哈尼族村落拓展覆盖至整个澜湄流域国家,最终落地形成澜湄国家跨境语言AI大模型整体成果。
“澜湄国家跨境语言AI大模型”项目入选
澜沧江-湄公河依次流经中国、缅甸、老挝、泰国、柬埔寨、越南,一江连六国,语言种类繁多且互通性低,衍生出诸多亟待解决的区域发展难题。如,语言隔阂不仅造成民众交往、社区沟通的壁垒,让政策与数字公共服务难以有效触达基层。
然而,在自然语言处理领域,研究重心均集中在英语、汉语等高资源语言,而澜湄流域国家官方语言,例如泰语、缅甸语、老挝语,以及少数民族语言,例如:苗语、傣语、哈尼语、景颇语,多属于低资源甚至极低资源语言,在大模型训练上是世界性难题,传统的模型训练方法无法适配这类语言的语料特点,相关技术研发长期处于空白状态。
攻坚破局:跨学科团队填补极低资源语言模型领域的技术空白
据了解,全球现存约7000种语言,接近一半处于濒危状态,超6500种均为低资源语言。国内虽有部分大模型企业在扩充翻译语言品类,但在少数民族语言领域的成果仍较为有限。海外市场中,Meta基础人工智能研究实验室的开源项目“不让任何语言掉队”(No Language Left Behind,简称“NLLB-200”),是低资源语言研究的代表,涵盖众多被商业软件忽视的小众语种,如阿斯图里亚斯语、卢干达语、乌尔都语以及众多非洲本土语言。但业界当前在澜湄流域国家官方语言与少数民族语言的覆盖上仍有欠缺。
为攻克这一难题,团队打造了一支语言学家与AI专家深度融合的跨学科、文理协同的研发队伍,直面极低资源语言的研发痛点。
哈尼语翻译界面
据刘畅源介绍,极低资源语言的研发远比高资源语言更具挑战,核心面临四大难题,包括发音人稀缺、标注专家难寻、采录设施运输不便、整体采集成本高昂。“比如讲哈尼语白宏方言的老百姓会说自己的语言,但是没有方式把话语写下来,然而要用于AI训练,就必须用符号系统进行表达。我们耗时许久系统性整理了哈尼语白宏方言的词汇、短句、长篇语料,最终将国家标准哈尼文适配到白宏方言,才突破了这一核心障碍。”他还举例道,仅一分钟语料的标注成本就高达千元,巨大的资金与精力投入,也是鲜有团队大力投入该领域的重要原因。
该项目团队历时一年,终于完成29种澜湄流域国家官方语言及少数民族语言的语料采集,其中包括云南普洱墨江白宏哈尼语、红河绿春大寨哈尼语、西双版纳阿卡哈尼语、临沧傣语、德宏景颇语等多种极低资源语言。目前,团队已经成功开发了哈尼语、苗语六大方言的AI文本翻译与创作系统,还初步研发出AI语音合成系统。接下来,团队计划推出“同源桥”系列商业产品,覆盖AI翻译、影视汇、旅游通、民心汇等多个应用板块,让技术成果在更多场景实现落地。
算力护航:壁仞科技,让技术有“温度”
项目的社会价值也得到了多家高校与企业的关注,北京大学、云南师范大学、浙江大学、壁仞科技等纷纷加入协作阵营,让技术研发之路更具底气。刘畅源介绍,团队与云南师范大学文学院共同打造澜湄国家文学大模型,丰富模型的文学内容维度,浙江大学则提供线上大模型教育与推广平台,为模型的落地与普及搭建渠道。
壁仞科技则在合作中提供了关键性的国产算力技术支持,成为模型研发与落地的核心算力后盾。依托于壁仞科技GPU,团队正全力推进澜湄国家跨境语言AI大模型的国产解决方案,推动国产算力在极低资源语言模型领域的落地应用。据刘畅源介绍,该解决方案的应用场景主要集中在娱乐传播、文化旅游、跨境安防三大领域,真正让技术成果赋能澜湄流域各国的交流与发展。
具体来看,在娱乐传播领域,依托模型的精准翻译能力,能够以低成本实现澜湄流域国家间多语言翻译,让中国文化更好地走向东南亚市场;在文化旅游领域,模型可通过语音交互、故事讲解等形式,让游客沉浸式体验当地民族文化,助力文旅产业发展;在跨境安防领域,多语言实时翻译与沟通能力,能有效赋能各国政府的安防协作沟通系统,提升跨境犯罪打击、应急响应的效率,守护区域安全稳定。
壁仞科技与项目团队的携手,并非偶然,而是双方在“技术平权”理念上的同频共振。南都记者了解到,壁仞科技始终秉持“科技向善”的技术观,在深耕技术研发的同时,长期投身社会公益项目,还将优质科技教育资源引入偏远地区的课堂,让尖端科技走出实验室、走向普通大众。
展望未来,依托壁仞科技自主可控的国产算力底座,项目团队计划搭建世界语言中心,开发覆盖全球更多种语言的世界语言AI大模型。“这一模型将持续记录人类文明,致力于构建覆盖全球语言的普惠性知识库,让不同语言、不同文化之间实现无障碍交流。”刘畅源说道。
业绩助力:壁仞科技高质量增长,行稳致远
值得一提的是,作为国产通用GPU领军企业,壁仞科技在近期交出了2025年业绩“成绩单”。财报介绍,2025年,壁仞科技实现了旗舰通用GPU产品的规模化量产及交付、多个千卡智算集群的交付以及高质量客户群体的拓展。得益于此,其实现收入10.35亿元,同比大幅增长207.2%。另外,毛利也持续改善达5.57亿元,毛利率增长63个基点达53.8%。
研发投入则随产品技术迭代显著增强,同比增长78.5%至14.76亿元,经调整年内亏损近8.74亿元。从年报数据来看,壁仞科技在加大研发投入、为未来发展奠定基础的同时,商业化能力和经营效率正不断提升。
从关注哈尼族留守儿童的语言困境,到攻克极低资源语言模型难题,再到立志打造覆盖全球的语言AI大模型,技术进步的成果不仅惠及“大众”,也可帮扶“小众”。这既是项目的价值所在,也是壁仞科技坚持“科技向善”技术理念的生动实践。
文/朱可轩
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com