中译语通展示格物多语言大模型技术和工业实践
2023年7月18日至20日,第二届自然语言生成与智能写作大会(NLGIW 2023)在新疆乌鲁木齐召开。中译语通科技股份有限公司(简称“中译语通”)作为大会战略合作伙伴,向与会嘉宾展示了公司格物大模型技术和工业实践。会议还汇聚了腾讯AI Lab、百度等科技企业,学术界和工业界的研究学者与从业人员,分享各自研究成果和实践经验,推动了大模型和自然语言生成领域的技术创新与研究成果转化。

本届会议组织单位为中国中文信息学会自然语言生成与智能写作专业委员会(筹),承办单位为新疆师范大学。大会从特邀报告、讲习班、青年学者论坛等各个环节围绕自然语言生成与大模型展开,包括大语言模型、代码大模型、多模态大模型的基本原理、高效训练和推理、有监督微调、人类反馈学习、安全与伦理、大模型应用等各个维度开展,为参与者提供一场关于大模型的盛宴。

会议邀请到了中科院自动化所宗成庆研究员、华为诺亚方舟实验室刘群教授、哈尔滨工业大学秦兵教授三位知名专家做大会特邀报告。这些报告简要回顾了生成式语言模型“前世”的基础上,对大语言模型的“今生”做了简要分析,系统性地介绍了知识增强的语言模型技术和研究进展,以及从大模型的安全角度出发,探索了大模型安全性内容生成的方法,包括研究大模型辨别是非能力,以及人类普世价值观,社会文化价值观及立场对齐上的内容检测与生成方法,探索AI社会协作式的价值观对齐机制。

在企业论坛环节中,中译语通2030人工智能研究院副院长陈自岩博士受邀进行题为《格物多语言大模型技术和工业实践》的发言,针对当前人工智能在工业实践中面临的多语言间语义割裂、从数据+需求到应用的端到端的迫切需求、社交交互生成难以达到拟人化程度等挑战,阐述了中译语通基于格物大模型解决这些难题的创新技术和成功实践。
格物大模型是中译语通于2022年11月发布的大模型体系,包括了多语言预训练模型、多语言机器翻译超大模型、多模态预训练模型等。陈自岩博士还重点介绍了公司正在研发的新一代多语言生成式对话大模型,该模型以自有的近80亿句对高质量平行语料、100多个语种的PB级数据为基础,融合上下文理解、个性化、思维链等高达2000万规模的高质量业务化指令,并提出领域专家对齐和社交对抗反馈的混合强化学习技术,旨在打造时效性较高、千人千面的生成式大模型。
目前公司研发的生成式大模型已在多语言知识图谱端到端生成、社交媒体行为生成、领域报告写作等应用场景实现了落地应用,同时针对全球防务安全、科研数据分析、智慧城市和全球战略数据研究等领域进行全方位技术革新。此外,陈自岩博士与腾讯、百度等企业专家围绕大模型在应用落地上的难点和应对措施进行圆桌讨论。

会议上,中国中文信息学会自然语言生成与智能写作专委会为中译语通等8家企业颁发感谢奖牌,表达各企业对本届大会的特别支持。


