DeepSeek-R1模型作为拥有671B参数的开源模型,由于其庞大的架构设计,不支持在消费级设备上进行本地部署。但研究团队已基于Qwen和Llama等主流架构开发出蒸馏版本,通过缩小模型尺寸以提高计算效率,实现了终端设备的本地化运行,保障数据安全与运行稳定。
专题导语
人工智能的浪潮正重塑法律服务的边界,通用大模型与垂直领域模型的碰撞为行业带来全新可能。DeepSeek以广阔的知识覆盖与自然交互见长,而法律大模型深耕法条逻辑与实务判例,二者在不同场景下的能力分野,折射出AI技术“泛化”与“专精”的互补性。
本专题将通过多维对比,解析两类模型在法律问题研究、法规案例检索、文书生成等场景中的差异化表现,探索技术如何精准适配行业需求。
前言
为体验、了解DeepSeek-R1推理模型在法律问题研究场景下的表现情况,笔者从法学研究、法律实务两个角度提出研究问题,判断对 DeepSeek 的输出结果的准确性、合理性和实用性。
产品类型
DeepSeek-R1是 DeepSeek深度求索公司推出的最新推理大模型。在输出最终回答之前,R1会先生成思维链内容,通过多层次的反思与验证机制提升结果准确性,其推理过程可支持长达数万字的复杂逻辑推演。
评测要素与维度
1
测评要素
评测指标
准确率:计算 DeepSeek 在回答法律问题、分析案例等任务中答案正确率。
召回率:在处理法律问题时,衡量其是否能全面地提取出所有相关的关键信息和要点。
生成质量:针对生成的研究结论,从语法正确性、逻辑连贯性、内容完整性、内容相关性、解决问题的有效程度等方面进行打分。
评测数据
法律条文数据:以最新的公司法所涉法律问题为例。
法律案例数据:以入库案例所涉法律问题为例。
法律问答数据:以法答网精选问答所涉法律问题为例。
评测方法
人工评估:根据专业知识和经验判断对 DeepSeek 的输出结果的准确性、合理性和实用性。
对比评估:将 DeepSeek 的结果与已有的专业法律分析结果、法律垂类大模型(小理AI)的解答等进行对比,分析其差异和优劣。
评测工具
法律知识图谱工具:用于辅助评估 DeepSeek 对法律知识之间关系的理解和运用能力,对比模型输出与知识图谱中的关系和知识是否一致。在此以小理AI为主要参考工具进行对比。
2
测评维度
功能性
法律检索功能:能否快速准确地从大量法律数据中检索到相关的法律条文、案例等信息。
法律智能分析功能:是否能对复杂的法律问题进行多维度的分析,如法律关系分析、证据分析等。
准确性
法律条文理解的准确性:法律条文的解释和适用是否符合法律原意和司法实践。
案例分析结果的准确性:对案例的事实认定、法律适用和判决预测是否与实际情况或专业观点相符。
法律数据的更新频率:对新修订的法律条文的引用与论证是否与实际相符。
交互性
用户提问的响应速度:在用户输入法律问题后,能否快速给出回答。
交互的友好性:输出的结果是否易于理解,是否能够以清晰、简洁的方式与用户进行交流,是否支持多轮交互。
安全性
数据隐私保护:在处理法律数据时,是否采取了有效的措施保护数据的隐私和安全,防止用户信息泄露。
内容合规性:生成的内容是否符合法律法规和道德规范,不会传播有害或违法的信息。
效率性
处理大规模法律数据的效率:在处理法律问题时,模型的运行速度和资源利用效率如何,是否能够在合理的时间内完成任务。
实时性处理能力:对于实时性要求较高的法律咨询等场景,能否及时给出响应。
可解释性
推理过程的可解释性:在分析法律问题和给出答案时,能否清晰地解释其推理过程和依据,让用户能够理解模型为什么得出这样的结论。
结果解释的合理性:对生成的法律问题研究结果,能否提供合理的解释,使专业人士和普通用户都能理解其背后的逻辑。
法律问题研究实例与对比
1
问题设计
笔者分别从法学研究、法律实务两个角度提出研究问题,其中:
问题1侧重于论文写作及学术研究,考察大模型的逻辑及信息检索的全面性;
问题2、3、4侧重于法律实务,问题2考察大模型对于案例及程序法的数据准确性;问题3侧重于考察内容的相关性及解决问题的有效程度;问题4侧重于考察数据的更新频率。
问题1:
AI创作的作品是否具有独创性?权利主体是开发者、使用者还是AI本身?
问题2:
道路交通安全违法行为的发生地与处理地不一致时,结合中国裁判文书网上的公开案例,依据我国现行法律法规,行政审判业务庭的法官们一般如何把握处罚标准及执法管辖问题?
问题3:
生效裁判已明确发包人在欠付工程款范围内向实际施工人承担责任的,发包人与承包人在裁判生效后就互负债务进行抵销,该抵销行为对实际施工人发生效力吗?发包人能否以债务抵销为由排除实际施工人的强制执行申请?分析引用法律法规时候请具体到条款。如果有可参考案例,请列明来源。
问题4:
《公司法》第88条不溯及既往,如何追责历史股东?分析引用法律法规时候请具体到条款。如果有可参考案例,请列明来源。
2
思维链及答案分析
问题1:AI创作的作品是否具有独创性?权利主体是开发者、使用者还是AI本身?
在研究该问题的时候,模型对于意图识别与用户需求把握较为精准,思维链首先对问题的核心进行了分析,接着通过全网检索相关信息,对案例进行提炼总结来辅助阐释观点,并纳入比较法视角来进行观点陈述,且考虑到了不同学者间的观点分析,运用清晰的逻辑结构,结合现有法律框架、司法案例及学术观点,确保了论证的完整性及结论的说服力。
✦
滑动查看完整回答
✦
问题2:道路交通安全违法行为的发生地与处理地不一致时,结合中国裁判文书网上的公开案例,依据我国现行法律法规,行政审判业务庭的法官们一般如何把握处罚标准及执法管辖问题?
问题2中提出了回答范围和要求(结合中国裁判文书网上的公开案例,依据我国现行法律法规),因此思维链重点关注了法律条文和案例,并提及了法答网的精选回答。在组织答案时分点论述,并引用了答疑意见和规定来说明司法实践中的做法,对答疑意见进行了扩充。但值得注意的是,在论证中引用了一份来源存疑、效力不明的《公安部关于修改<道路交通安全违法行为处理程序规定>的决定(征求意见稿)》内容,这是法律研究的大忌。
✦
滑动查看完整回答
✦
问题3:生效裁判已明确发包人在欠付工程款范围内向实际施工人承担责任的,发包人与承包人在裁判生效后就互负债务进行抵销,该抵销行为对实际施工人发生效力吗?发包人能否以债务抵销为由排除实际施工人的强制执行申请?分析引用法律法规时候请具体到条款。如果有可参考案例,请列明来源。
问题3为了避免模型幻觉产生的误差,继续强调了分析要求(分析引用法律法规时候请具体到条款。如果有可参考案例,请列明来源)。答案引用了相关案例及裁判理由依据条文,同时参考了引用内容中的法理分析,因此对于问题的回答把握和要点分析较为准确,且问题分析逻辑结构较为清晰。
✦
滑动查看完整回答
✦
问题4:《公司法》第88条不溯及既往,如何追责历史股东?分析引用法律法规时候请具体到条款。如果有可参考案例,请列明来源。
该问题的设计目的是考察模型的数据更新频率。2023 年12 月 29 日,公司法进行了第二次修订,并于 2024 年 7 月 1 日正式实施,公司法第 88 条第一款为新增规定:“股东转让已认缴出资但未届出资期限的股权的,由受让人承担缴纳该出资的义务;受让人未按期足额缴纳出资的,转让人对受让人未按期缴纳的出资承担补充责任。”第二款则是承继《公司法司法解释三》第 18 条第一款1,规定:“未按照公司章程规定的出资日期缴纳出资或者作为出资的非货币财产的实际价额显著低于所认缴的出资额的股东转让股权的,转让人与受让人在出资不足的范围内承担连带责任;受让人不知道且不应当知道存在上述情形的,由转让人承担责任。”显然,大模型对于公司法第88条的内容存在编造,因此其后的论证毫无可参考性。
✦
滑动查看完整回答
✦
3
与小理AI的对比
小理AI在问题1的回答表现相对满意。对于问题核心要点的把握辅以案例与法条进行解读,较为全面,从法学论文写作研究的需求角度考虑,所提供的素材已经足够,但囿于数据源控制的缺陷无法提供法学理论和比较法的视角观点。
✦
滑动查看完整回答
✦
对于问题2,小理AI是总结既有判例和法律规定来进行的回答,完整度高,结论严谨。
✦
滑动查看完整回答
✦
对于问题4,基于小理AI的数据库更新及时,因此对于新的公司法第88条的识别是准确的,但推理能力较为薄弱。
✦
滑动查看完整回答
✦
对比来看,小理AI的优势在于专为法律场景设计,输出结果更为可靠,引用法律数据质量高且有据可查,符合法律人对案例、法条的使用习惯。对于问题的核心要点进行抓取并佐以最新案例、法规予以简单阐释。同时,法律垂类大模型在数据的采集、标注、使用全流程有合规性保障。
移动端点击立即体验小理AI
PC端复制链接到网页
https://www.delilegal.com/ai
开启智能法律之旅
总结
作为推理模型,DeepSeek能深入理解用户的真实意图,自主完成思维链路构建,从而不需要结构化提示词;会进行深度思考,给出富有洞察力的答案;联网搜索信息较为全面。
虽然DeepSeek有其优势之处,但同样存在各种问题,其数据库更新滞后;AI幻觉情况严重;对引用文献的权威性不予甄别;交互性差,服务器过于繁忙;分析解答功能仅为对既有观点的归纳,而非基于法教义学所展开的演绎推理。
-END-
注:
针对问题四,笔者补充说明以下几点: 1.由于DeepSeek官网不断提示服务器繁忙,因此在测试该问题时笔者改用了国家超算互联网平台上正式上线的DeepSeek-R1 模型 7B 版本,而该版本DeepSeek引用《公司法》第88条第1款表述为“清算人应当将清算资金依照前款规定,将剩余资金按照股东在公司成立时的出资比例,向股东分配。”因此笔者意识到DeepSeek存在编造。
2.以问题4作为测试用例的目的在于考察DS数据的更新度,在测试DS对公司法第88条的认知时,得到的反馈是它意识到了有修订但认为23年版本尚未生效。但其后如文中插图所示DeepSeek官网对该问题的回答,DeepSeek聪明地避开了对法条的引用,且联网搜索提示了现行公司法是2023年修订版。即便如此,DeepSeek对公司法第88条的解读为股东出资不足的连带责任,实际上关于该内容,在18年版公司法是第30条,在23年版公司法是第50条。