校园百事通,科研好帮手!港中大(深圳)的这只“凤凰”真聪明!
发布日期: 2023-08-12 18:55:48 来源: 读创

读创/深圳商报首席记者 吴吉 通讯员 马明霞


(相关资料图)

“我的英文写得不好,可以帮我把这篇论文润色一下吗?”“堆排序的时间复杂度是多少?”“假如你是徐志摩,写一首关于“微积分”的浪漫现代诗”

……

这些需求,香港中文大学(深圳)自主研发的“凤凰”大语言模型都可以实现!为了更好地满足师生的学术与实践需求,香港中文大学(深圳)师生团队联合深圳市大数据研究院自主研发了一款名为“凤凰”的大语言模型,计划在8月中旬发布内测版。

“凤凰”大语言模型结合了全球领先的人工智能技术与校园教学、研究需求,是一款经过校内数据科学团队精心研发的一项人工智能应用,旨在针对校内数据进行指令微调,为广大师生提供智能化、高效率的学习与研究支持。

为解决实际问题而生

据悉,研发“凤凰”的灵感萌发于今年5月。当时,香港中文大学(深圳)的师生团队聚在一起开展课题小组讨论时,大家充满激情地构想着一个令人兴奋的场景:“我们可以开发一款专门用于校内的大语言模型,为校内师生提供个性化的智能学习和研究辅助,让学术探索更加高效和智能化!”

数据科学学院的青年教师王本友教授决定带领学生共同探索一个解决方案,希望做出一款专属于校内师生的大语言模型,真正将人工智能与校园生活无缝地结合起来。王本友教授介绍,“我们要把大模型语言做到专业且简单易用,未来我们将会打造专属于团队的大语言模型生态。从解决问题出发,不一定要高大上,能解决问题的方法就是好方法。这是一个非常有前景的项目,如果我们能开发出一款智能化的大语言模型,能够根据学生的需求进行个性化辅助,定制化输出结果,将会给学校师生带来极大的助力!”

在构思之后,王本友教授立刻与博士生陈志鸿同学进行了可行性的沟通,并与计算机科学与技术专业的本科生研究助理刘禹恒同学取得联系,指导刘禹恒同学主导研究“凤凰”项目。随后,团队招募了三位研究助理加入团队,他们分别是来自大数据科学专业的本科生欧阳恺瑞同学、张一笛同学和来自大数据研究院的研究助理宋定杰。他们融合各自的专业知识和热情,通宵达旦地研究、探索和迭代。经过数月的不懈努力,“凤凰”大语言模型终于初具雏形。

“凤凰”大语言模型学生团队,从左至右依次为:陈志鸿 2019级博士生 思廷书院 理工学院刘禹恒 2020级本科生 思廷书院 数据科学学院 高中毕业于成都七中嘉祥外国语学校欧阳恺瑞 2021级本科生 逸夫书院 数据科学学院 高中毕业于广东实验中学张一笛 2021级本科生 逸夫书院 数据科学学院 高中毕业于哈尔滨第三中学

校园百事通 科研好帮手

据介绍,研发团队秉持以数据为中心的计算方式,完成了数据工程,指令微调反馈学习和检索增强等一系列关键步骤。研发团队从香港中文大学(深圳)收集了丰富多样的校内数据,包括校园建设、教授信息、学生反馈等,数据量高达3万条;团队在此基础上设计并构建大规模数据收集、存储和分析系统,同时利用ChatGPT在数据治理中发挥的重要作用,最终得到有组织、一致、高度可用的数据流。

为了让“凤凰”模型更好地适用于校园场景,团队采用了渐进式的两阶段模型训练策略,确保了“凤凰”模型在校园环境中表现出色,为用户提供了更加个性化和有价值的交互体验。

为了进一步提高模型回答的正确性,团队在生成模型的基础上添加了检索器,设计了检索增强算法并将自研的混合检索算法结合,在模型生成的基础回答上,将数据库检索出的相关语料注入到上下文语料,增强提示信息,生成更高准确性的回答。

那么,这只“凤凰”到底有多“神奇”呢?研发团队介绍,“凤凰”大语言模型在校园内有着广泛的应用场景,例如:学术研究助力、科研项目支持、校园信息查询等。以前,为了获取校内各领域的资讯,师生可能需要在数十个校内公众号间来回切换获取信息。如今,有了“凤凰”大模型,只需轻松提出问题,“凤凰”将为师生深入研究,呈现准确的信息,为师生的学术和生活提供便捷的指引。

此外, “凤凰”在具有香港中文大学(深圳)校内知识的同时,在通用能力方面也达到了GPT的95%的水平,具有强大的智慧内核。通过此技术,团队希望模型的输出更加贴近校园现实,为校内师生提供真正有用的智能化建议与支持。在使用期间,“凤凰”研发团队深知数据安全与隐私保护的重要性。所有“凤凰”大语言模型的应用都遵循严格的数据隐私保护原则,确保师生的个人信息与学术数据。

“飞”出的不只是“凤凰”

香港中文大学(深圳)和深圳市大数据研究院大模型团队包括王本友、万翔、孙若愚、李海洲几位教授、蒋峰博士和高安凝哲博士,还有在读博士生近十名。除了“凤凰”,该团队还同时开发了专注于医疗健康领域的大模型“华佗GPT”。其中公开资料显示,2023年2月,研发团队发布的“华佗GPT”是首个国内类ChatGPT的医疗大模型,也是国内公开的首个通过多个医疗资格考试的大模型,目前线上已经有十几万用户体验了“华佗GPT”的功能。

香港中文大学(深圳)大模型团队部分师生合影

最近,由深圳市人才工作局、深圳市大数据研究院和香港中文大学(深圳)合作开发的新型自然语言处理模型——“阿深”,在由深圳市委组织部、深圳市人才工作局主办的“《深爱你 圳等你》新书发布暨招才引智活动”上正式发布。“阿深”是一款基于“凤凰”中文大语言模型底座进行开发的人才资讯大模型,涵盖深圳生活导览、创业就业政策、文旅环境消费等多维度内容,将为海内外人才提供关于深圳的政策查询、政策速配、服务资讯等多种功能服务。

审读:孙世建

关键词:

相关文章

热点图集