

雷 宇
得理科技有限公司
联合创始人、CTO
· 曾任职于百度、腾讯
· 超过10年互联网企业研发管理经验
· 参与腾讯支付系统的设计与研发并荣获“腾讯2019年度微信支付创始人团队大奖”
近一年来,生成式人工智能和多模态预训练大模型的崛起备受瞩目,其颠覆性的表现震撼全球。在这场浪潮的推动下,创新技术与法律的融合正在引领着一场法律行业的革命,并对整个生态系统进行重构。
8月30日,在“科创中国”企业家论坛上,得理科技正式宣布推出了基于大模型开发的“AI+法律”得理智慧法律系统。得理科技的首席技术官兼联合创始人雷宇先生表示,得理科技从2019年以来一直致力于人工智能在法律领域的软件开发和实践,而得理智慧法律系统将建立起智慧法律服务的全域场景,分为得理律助、得理法搜、得理法务和得理法问四个板块,以满足不同用户的需求,是智能法律领域的重要突破。
作为在搜索与大数据领域拥有十年技术积累的高科技人才,雷宇先生是揣着怎样的愿景加入得理,又是如何带领得理在“AI+法律”领域实现技术突破的,而大模型的使用又会带着得理前往何方呢?以下是雷宇先生的讲述。
人工智能
在法律行业具备巨大的优势和发展潜力
大学毕业以后,我和大多数人一样,进入了互联网行业,从最基础的程序员工作开始,并逐渐参与了一些大型互联网产品的研发,服务了上亿的用户。
这十年间,通过在技术领域不断努力,我积累了丰富的经验,深刻认识到技术对社会的价值创造和效率提升起到了重要作用。
2016年,AlphaGo在围棋比赛中的胜利让人们对人工智能的力量有了深刻认识。随后,深度学习技术在自然语言处理领域取得了巨大突破,世界各主要发达国家高度重视,并将其纳入国家战略规划。
这一趋势明确地表明,人工智能必将在未来极大地提升社会的劳动生产率,推动社会的繁荣与发展。
近年来,人工智能技术取得长足进步。结合自己在大数据领域的技术背景,我坚信大数据与人工智能的结合能够极大地提高效率、降低成本,改善人们的生活。因此,我开始希望自己能够利用AI技术在某一领域做出一点成绩。
法律领域正好拥有大量的法律文献和判例,其中存在着大量重复性工作,并对专业化程度和专业知识的要求极高。因此,我认为AI在法律行业具备巨大的优势和发展潜力。
2018年以后,Bert模型的问世为自然语言处理领域带来了革命性的进展,许多任务取得了巨大突破。得理中科院人工智能实验室也就相关问题进行了初步研究与论证,进一步加深了我对人工智能在法律领域巨大可能性的认识。
基于这样的背景,我于2020年加入团队,并共同创办了得理,希望能够运用AI技术提供创新解决方案。

法律文本
数据处理系统经历了上百个版本的迭代
在创办和发展的早期阶段,我们面临着诸多挑战。首先,作为一家新兴公司,我们只有几位程序员和算法工程师。为了使AI模型的训练顺利进行,我们与律师团队紧密合作。这种跨行业的合作需要良好的沟通和磨合。
为了应对这一挑战,我们技术人员需要具备基本的法律常识,以理解法律文本的结构。因此,律师们必须教会程序员如何阅读理解法律文本,而程序员则需要指导律师们进行数据标注,并理解技术逻辑。
除了团队配合的挑战外,构建数据基础底座能力也是一项具有挑战性的任务。由于数据是训练AI模型的前提条件,而数据的来源多样且结构化程度较低的特点,使得我们在数据的获取和处理上面临着困难。
为了解决这个问题,我们把数据处理从最初的小作坊式的单机程序人工干预发展到了数据仓库分布式实时自动处理。在经历了上百个版本的迭代之后,我们终于建立起了稳定而高效的数据处理系统。
可以说,得理从成立之初就注重数据,并积极构建高质量的结构化数据和标注数据,在法律文本数据处理方面拥有深厚的技术积累。
我们集聚了30TB级别的庞大数据量,并在法律法规数据的自动化处理方面提出了独特的技术方法。我们不仅在自然语言处理和NLP的基础任务上表现出色,如分词、词性标注和分类等,并且在处理法律文本方面也表现出了卓越的能力。
在深度学习的算法模型和训练方法方面,我们拥有多项发明专利,其中创新地引入了案例语义检索,相比传统的关键词检索方法在准确性上有着显著的优势。此外,我们还实现了针对案情长文本的高效检索,在速度方面处于业内的领先地位。
为了提高系统的准确性,我们构建了一个包含上亿个实体的法律知识图谱,这使得我们的系统在检索和问答方面具备了更高的准确性。
今年,chatGPT模型的问世让我们看到了大型模型在文本理解和多轮对话方面的出色性能。对于许多行业而言,这是一个巨大的机遇,因为通用人工智能AGI又向前迈出了一大步。
对得理而言,同样是一个难得的机会。我们多年来积累的数据恰好可以应用于垂直类法律大型模型的训练中,借此,我们迅速推出了自己的法律大型模型,并且极大地提升了得理产品的AI能力。

希望未来几年内
在法律领域提供一站式的MAAS服务
虽然通用大型模型在回答垂直类专业问题时仍存在一些幻觉和不准确的情况。但是,我们也能看到它正在快速迭代,模型参数的规模也越来越大。随着通用大型模型的不断进化,它在专业领域的表现也越来越出色。
这对得理在法律领域也带来了一些挑战,我们必须更加专业、准确地回答问题。为了做到这一点,我们需要增加更多专业数据来训练模型,并加强模型的强化学习。同时,在通用问答领域,我们也需要增加更多训练数据,并跟进最新的算法模型。
最近,我们在大模型法律领域的训练与微调方面发表了数篇高质量论文,在解决大模型生成过程中的幻觉问题和法条不准确问题方面取得了重大进展。得理法律大模型生成的回答和引用的法律法规具备了可验证性,提高了用户对系统的信任度。
除此之外,我们还在模型的推理速度方面也取得了显著成果,为大规模使用模型奠定了坚实基础。这一成绩使得我们的系统能够迅速有效地处理海量数据,为用户提供准确、及时的解答。
未来,得理将继续保持语义检索方面的优势,通过大型模型相关技术提升法搜的检索性能,提高对法律文本的理解能力,优化产品的用户体验。同时,我们将使用更多、更优质的数据来训练法律通用大型模型,使其成为得理整个产品的基石,为各个产品赋能。
我们的AI模型将在法律更细分领域,如刑事、知识产权等专业领域展现出更卓越的性能。得理计划将以开放平台的方式向外界展示其在法律AI领域的能力,我们希望在未来几年内,能够在法律领域提供一站式的MAAS(Model As A Service)服务。
- 完 -