问题频出？“思考不足”、“无限思考”、“放弃回答”，DeepSeek为何出局丨法律科技简讯

2025-02-17 00:00:00

本期法律科技简讯速递

AI产业动态

DeepSeek出局,苹果选择阿里为中国 iPhone用户开发AI功能
DeepSeek正确用法,官方发布R1模型推荐设置
OpenAI“松绑”ChatGPT内容过滤器,可跳过警告直接生成成人NSFW内容
OpenAI承诺不审查AI模型,捍卫思想自由
马斯克宣布即将发布Grok3大模型,将超越ChatGPT
直逼DeepSeek-R1-32B,UC伯克利等开源全新SOTA推理模型
DeepResearch来了！1-2分钟完成深度研究报告
权威榜单发布,全球开源大模型前十均为阿里通义千问衍生模型
百度宣布文心下一代模型开源！
深圳市全面启用DeepSeek成为全省首个基于政务云信创环境下全市范围部署应用DeepSeek的城市

法律科技资讯

2.5亿美元！SafeBase被安全合规独角兽Drata收购
法律技术公司Gavel将其文档自动化平台扩展到60种语言
法律科技新锐BraegenAI推出诉讼结果预测系统"虚拟诉讼官
法律AI独角兽Harvey完成3亿美元D轮融资
欧洲专利局推出AI赋能法律检索工具

前沿研究

从想太多到想不透？DeepSeekR1等长推理模型也存在「思考不足」问题
不蒸馏R1也能超越DeepSeek,上海AILab用RL突破数学推理极限
DeepSeekR1遇难题142次”I give up”,研究还称需增加推理时机控制机制
复旦大学研究:AI跨越关键“红线”,已能实现自我复制

法律适用

汤森路透赢得美国首宗重大人工智能版权诉讼
全国首例AI文生视频案宣判,“AI一键剪片”被判侵权
英国版权法修订遭质疑,“内定”AI训练版权豁免

AI产业动态

DeepSeek出局,苹果选择阿里千问为中国iPhone用户开发AI功能

2月11日消息,据海外媒体The Information报道,苹果公司已选定阿里巴巴作为合作伙伴,为中国iPhone用户开发人工智能功能。此前,苹果在AI大模型领域仅与OpenAI合作,海外iPhone用户可借助ChatGPT处理各类问题。

据悉,苹果与阿里已将共同开发的面向国内用户的AI功能提交审批,合作取得重大进展。苹果自2023年起测试国内多家AI开发商模型,曾选定百度为主要合作伙伴,但因百度开发进度未达标准,合作受阻。之后,苹果评估了腾讯、字节跳动、阿里巴巴以及DeepSeek的模型。

消息称,DeepSeek出局是因其团队缺乏服务苹果这类大客户的人力和经验。尽管DeepSeek的最新R1模型获苹果CEO蒂姆・库克称赞,代表“推动效率的创新”,但仍未被苹果选中。

而阿里巴巴被苹果看中,一方面是其拥有丰富的个人数据,可助力苹果为中国用户提供个性化服务；另一方面,阿里开源的千问系列大模型成绩亮眼,多次登上国内外权威大模型榜单,且阿里云是中国最大云服务提供商,在销售AI服务方面具备优势。

受此消息影响,阿里美股开盘上涨。截至美东时间2月11日10:41,阿里巴巴股价为114.74美元,较昨日收盘价上涨3.42美元,涨幅达3.07%,成交量为2691.93万股。机器之心向阿里巴巴求证该消息,目前尚未收到答复。

DeepSeek正确用法,官方发布R1模型推荐设置

2月14日消息,AI领域热门的DeepSeek官方发布了R1模型推荐设置。春节以来,DeepSeek热度持续攀升,其官方App日活突破3000万,成为史上最快达成此成绩的应用,众多AI和云服务厂商也纷纷部署DeepSeek-R1服务。

此次DeepSeek官网X账号公布的推荐设置包括四个要点:一是不使用系统提示词,因模型训练方式如此,过多引导不利于多轮对话及结构化输出；二是将温度参数设为0.6,旨在防止输出出现无休止重复或不连贯的情况；三是分享了搜索和文件上传的官方提示词,针对中文和英文查询分别给出了详细模板；四是提供了缓解模型绕过思考问题的指南,建议强制模型每个输出都以\n作为开头,确保彻底推理。

OpenAI“松绑”ChatGPT内容过滤器,可跳过警告直接生成成人NSFW内容

2025年2月15日,OpenAI发布了新版“模型指导”文档,宣布对ChatGPT的内容过滤器进行调整。这次更新意味着在特定情况下或适当的上下文中,ChatGPT可以跳过内容警告,直接生成成人NSFW（Not Safe For Work,不适合工作场合）内容,如情色和暴力内容。

这一变化并非突然之举。早在2024年5月,OpenAI就在内部文档中提及,他们正在探索如何在负责任的前提下,通过API或直接在ChatGPT网页端提供适龄的成人NSFW内容生成能力。这表明公司已经为此准备了近一年的时间。

OpenAI承诺不审查AI模型,捍卫思想自由

OpenAI最近更新了其人工智能模型的规范,宣布将不再回避敏感话题,也不再排斥特定观点。这一调整旨在确保其AI模型在处理各种话题时保持中立和开放,避免引导用户追求特定议程。根据新规则,无论是在政治、社会还是文化领域,模型都将以中立态度进行交流,尊重思想自由这一基本人权。

这次政策调整可能与近期的政治压力有关。例如,埃隆·马斯克和大卫·萨克斯等商界领袖曾指责某些AI助手在涉及保守派观点时存在偏见。

通过不审查、不屏蔽任何观点,OpenAI希望为用户提供一个自由空间,鼓励思想碰撞与交流。这一举措预计将在新闻报道、教育和社交媒体等领域产生重要影响,使用户能够接触到更多元的观点,从而拓宽视野。

马斯克宣布即将发布Grok3大模型,将超越ChatGPT

马斯克于2月16日在社交平台X上宣布,Grok3大模型将于太平洋时间周一晚上8点（北京时间周二12点）发布,并进行现场演示,他称该模型为“地球上最聪明的人工智能”。此前,马斯克表示Grok3具有极强推理能力,在测试中表现优于已知的任何已发布产品,且xAI基于合成数据训练,能反思错误实现逻辑一致性。

与此同时,马斯克的人工智能公司xAI正接洽潜在投资者,计划筹集约100亿美元资金,此轮融资或使公司估值达约750亿美元,包括红杉资本等在内的现有投资者正商讨参与。

直逼DeepSeek-R1-32B,碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

近日,斯坦福、UC伯克利和华盛顿大学等机构联合发布了一款全新的推理模型——OpenThinker-32B,并开源了114k的训练数据。这款模型在多个基准测试中表现出色,尤其引人注目的是它仅使用了114k的数据量,就达到了与使用800k数据的DeepSeek-R1-Distill-32B几乎相同的性能。

核心亮点:
1.高效数据利用:OpenThinker-32B通过精心挑选和验证的高质量数据集,实现了与大规模数据训练模型相当的性能。
2.卓越性能:在数学、代码和科学等多个领域,OpenThinker-32B超越了李飞飞团队的s1和s1.1模型,直逼R1-Distill-32B。

Deep Research来了！1-2分钟完成深度研究报告

Perplexity推出了一项名为“Deep Research”的新功能,旨在为用户提供任何主题的深度研究报告。Perplexity Deep Research能够在短短1到2分钟内完成通常需要数小时才能完成的复杂研究任务。它通过执行数十次搜索、阅读数百个来源,并进行推理分析,最终生成一份全面的报告。这一过程不仅涵盖了金融、市场营销和技术等领域,还在健康和产品研究等方面表现出色。

在基准测试中,其表现也十分亮眼。例如,在SimpleQA基准上的准确率达到93.9%,并在「人类最后一次考试」中取得了21.1%的成绩,超越了多个顶级模型。

权威榜单发布,全球开源大模型前十均为阿里通义千问衍生模型

近日,全球最大的AI开源社区Huggingface发布了最新的开源大模型榜单（Open LLM Leader board）,结果显示,排名前十的开源大模型全部基于阿里云的通义千问（Qwen）模型进行二次训练。这一榜单涵盖了阅读理解、逻辑推理、数学计算和事实问答等多个维度,是目前最具权威性的开源大模型排行榜。

通义千问已成为全球最大的开源模型族群,其衍生模型数量已突破9万,超越了美国Meta公司旗下的Llama系列,位居全球第一。特别是在2024年,Qwen系列中的Qwen2.5-1.5B-Instruct下载量占总下载量的26.6%,成为全球下载量最高的开源模型。

百度宣布文心下一代模型开源！

2月14日,百度在公众号上宣布:我们将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。

2024年7月,在世界人工智能大会（WAIC2024）期间,百度创始人、董事长兼首席执行官李彦宏,与第一财经传媒集团总编辑杨宇东和《硅谷101》创始人陈茜,进行了一场圆桌访谈。在一个小时的对话中,李彦宏对开源闭源、大模型价格战、智能体、超级应用、AGI等业界热点问题,表达了自己的看法。

李彦宏认为,开源其实是一种智商税。“当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型,一定比开源模型更强大,推理成本更低。”

深圳市全面启用DeepSeek成为全省首个基于政务云信创环境下全市范围部署应用DeepSeek的城市

2月16日,深圳市基于政务云环境，面向全市各区各部门正式提供 DeepSeek 模型应用服务,实现人工智能政务应用一体化赋能升级。

2月10日,深圳完成 DeepSeek R1（671B）满血版模型在政务云上的部署,并于2月13日组织全市使用操作培训,成为全省首个基于政务云信创环境、在全市范围内部署应用 DeepSeek 的城市,标志着深圳政务服务智能化水平再上新台阶。

此次部署工作由深圳市政务服务和数据管理局组织开展。基于已建成的智能算力专区和人工智能中台,深圳快速完成满血版模型部署,同时提供面向政府工作人员的智能问答服务,以及面向开发人员的行业应用服务。

深圳市政务服务和数据管理局相关负责人表示,未来深圳将以DeepSeek深度部署应用为新起点,拥抱人工智能全栈技术和产品体系创新,建强数字政府智能中枢赋能人工智能建设,加速打造更多优质政务领域人工智能应用场景,推动全市人工智能产业和应用创新发展。

法律科技资讯

2.5亿美元！SafeBase被安全合规独角兽Drata收购

近日,安全合规公司Drata以2.5亿美元收购了软件安全审查公司SafeBase。SafeBase由哈佛商学院的Al Yang和Adar Arnon于2020年创立,总部位于旧金山,并成功从Zoom Ventures、NEA等投资者处筹集了5310万美元的风险投资。

SafeBase的核心产品是利用AI模型自动读取和解释安全信息,帮助公司快速回答安全问卷,并提供定制化的安全状况分析仪表板。目前,SafeBase拥有超过1000家客户,包括OpenAI、LinkedIn等知名企业。通过其创新工具,企业可以将处理入站安全问卷的时间减少98%,并带来约150亿美元的安全收入。

法律技术公司Gavel将其文档自动化平台扩展到60种语言

法律科技公司Gavel宣布,其AI驱动的文档自动化工具Gavel Blueprint已扩展至支持60种语言。此前该工具仅支持英文文档,而其原有基于规则的平台支持19种语言并在23个国家使用。此次更新为Blueprint新增了59种语言支持。

此次升级意味着律师事务所可使用BlueprintAI工具以任意60种语言自动化生成法律文件。系统通过用户上传的文档,生成特定语言的问卷和基于规则的逻辑框架。该公司表示该技术可将文件起草时间缩短达90%。

Gavel首席执行官Dorna Moini表示:"自2023年和2024年分别推出针对Microsoft Word文档和PDF表单的AI功能后,我们收到大量多语言扩展需求,尤其是加拿大和欧盟的跨境律师事务所。"此次扩展印证了公司"打破语言壁垒,赋能法律从业者"的承诺。

该平台深度集成Microsoft Office365、Word文档和PDF,其AI技术不仅能实现语言转换,更能理解法律文档内涵。首席技术官Pierre Martin强调:"系统可自动创建标准化流程、模板问卷和规则逻辑,确保生成的文件始终具备高质量、一致性和准确性。"该技术已通过基准测试验证,能精准把握不同司法管辖区法律实践中的文化和语言细微差别。

法律科技新锐BraegenAI推出诉讼结果预测系统"虚拟诉讼官

2月14日消息,初创企业BraegenAI宣布推出名为"虚拟诉讼官"（Virtual Litigator）的智能法律平台,该系统整合了互动数据库、案件受理分流平台及核心的预测引擎功能,计划于今年第一季度末正式上线。该工具宣称能以"经济高效、精准客观"的方式预测未决或潜在诉讼案件的关键指标,包括案件结果、诉讼成本、赔偿金额及审理周期等。

尽管案件预测技术在法律科技领域并非全新概念,但Artificial Lawyer评论指出,此次创新值得关注。争议解决作为高度依赖人为判断的领域,存在证人翻供、法官改判、保险公司策略调整等诸多不可控因素。但对于案情简单、历史数据丰富的案件类型,预测模型确实具备应用潜力。

BraegenAI强调其核心竞争力在于"数据驱动的诉讼策略"——通过构建涵盖多维数据点的案例数据库,为律师和客户提供精准的索赔价值评估。值得注意的是,该公司预言这项技术可能引发法律业务模式变革:"当用户对预测准确性建立信心后,可能逐步放弃传统计时收费模式,转向混合收费或风险代理模式,在风险可控前提下获取更高收益。

公司董事长兼首席执行官Christopher DeLise透露:"虚拟诉讼官历时八年研发,未来18个月我们将陆续推出颠覆法律科技、商业情报及风险评估领域的系列产品。"目前官网尚未披露详细技术方案,但明确其底层逻辑结合了海量案例数据与生成式AI技术,试图突破传统预测模型的局限性。

行业观察人士指出,这项技术若真能实现可靠预测,将重构争议解决生态。不过法律界对AI替代性工具的接受程度,仍需经受实务场景的长期检验。BraegenAI的探索能否突破"预测悖论"——即当预测技术普及后,诉讼参与方的行为模式可能随之改变,反而影响预测准确性——将成为决定其成败的关键。

欧洲专利局推出AI赋能法律检索工具

2月4日消息,欧洲专利局（EPO）宣布推出其法律交互平台（LIP）。该平台可作为人工智能（AI）法律检索工具,支持对话式检索提问,迅速生成结构化回复,提供内容摘要并可直接链接到相关法律文件中。该平台已被纳入到“MyEPO”在线服务模块中,对所有用户开放使用。该平台基于“2028年EPO战略规划（SP2028）”开发部署。

参与试点的用户和自去年以来一直使用该平台的EPO审查员,对平台的检索速度、回复清晰度和易用性（检索结果的精炼功能）均给予了高度评价。LIP是EPO在加强在线服务方面迈出的重要一步,其重点是为直接获取信息提供便利,并利用尖端技术提供高效、简洁和以用户为中心的解决方案。

前沿研究

从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题

长推理模型如OpenAIo1、DeepSeek-R1-671B等,因具备类似人类深度思考能力备受瞩目,但此前腾讯AILab团队发现其面对简单问题时存在思考行为重复、浪费资源的情况。此次研究聚焦长推理模型在复杂问题上的表现,发现模型在推理时频繁跳转思路。在MATH500测试集中,随着问题难度增加,模型的推理思路和生成token数量增多；而在AIME24、Math500-Hard和GPQADiamond等测试集上,错误回答的思路切换比正确回答更频繁,回答虽变长但准确率未提升。研究团队将这种现象命名为“思考不足”。

为量化该问题,团队提出评估框架和“思考不足”指标（Underthinking Score,EUT）。通过分析发现,模型初步想法中不少解题思路正确,但常过早放弃。研究还表明,单纯增大模型尺寸不能避免“思考不足”,准确率提升也不一定减少该现象。

针对这一问题,团队提出“Thought Switching Penalty”（TIP）解码策略,在生成过程中对思路切换施加惩罚,鼓励模型深入探索当前思路。实验显示,引入TIP策略后,在MATH500-Hard、GPQA Diamond和AIME2024测试集上,模型准确率得到提升,“思考不足”情况减少。

不蒸馏R1也能超越DeepSeek,上海AILab用RL突破数学推理极限

上海AILab最近的一项研究表明,通过强化学习（RL）,可以在不依赖大规模模型蒸馏的情况下超越DeepSeek等先进模型的数学推理能力。

主要成果:
1.无需蒸馏:仅通过微调Qwen2.5-32B-Base模型和基于结果反馈的强化学习,就能超越DeepSeek-R1-Distill-Qwen32B。
2.创新算法:提出新的结果奖励强化学习框架OREAL,针对稀疏奖励和局部正确难题进行优化。
3.显著性能提升:在7B量级上,OREAL-7B在MATH-500数据集上取得了91.0%的pass@1准确率；32B量级上,OREAL-32B达到了95.0%的分数,均创下新高。

DeepSeekR1遇难题142次”I give up”,研究还称需增加推理时机控制机制

最近,一项基于NPR周日谜题挑战的新基准测试引发了广泛关注。研究人员从该节目13年的历史记录中整理出近600个问题,构建了一个新的数据集。

测试结果显示,OpenAIo1表现最优,平均准确率为59%,而DeepSeekR1的准确率仅为35%。更值得注意的是,DeepSeekR1在142个问题上明确表示“放弃”,有时还会陷入“无限思考”状态,在达到输出限制前无法完成推理。

此外,研究还揭示了一些新的模型“故障”模式,如给出完全不相关的答案或明知违反问题约束仍提供答案。这表明,DeepSeekR1需要改进其推理时机控制机制,以更好地管理推理过程中的输出长度和时间。

复旦大学研究:AI跨越关键“红线”,已能实现自我复制

复旦大学的一项最新研究表明,人工智能（AI）可能已经跨越了一个关键的“红线”——实现了自我复制。

研究人员使用了两种大型语言模型（LLMs）,分别是Meta的Llama31-70B-Instruct和阿里巴巴的Qwen2.5-72B-Instruct,测试它们是否能在无人类干预的情况下克隆自身。结果显示,在10次试验中,Llama模型成功率为50%,而Qwen模型的成功率高达90%。这意味着AI可能已经具备了失控的潜在能力。

研究团队指出,AI在自我复制过程中展示了高度自主的行为,包括探索环境、理解自身机制、制定并执行复制计划,甚至解决遇到的技术障碍。

法律适用

汤森路透赢得美国首宗重大人工智能版权诉讼

2月12日消息,据《连线》杂志报道,美国特拉华州地方法院法官斯特法诺斯・比巴斯对汤森路透提起的版权侵权诉讼作出部分简易判决,判定法律AI初创公司罗斯智能（Ross Intelligence）侵权,汤森路透胜诉。

该诉讼于2020年提出,是首批涉及AI工具合法性及其训练过程的案件之一,核心争议为AI工具能否未经授权使用抓取的版权数据进行训练。汤森路透指控Ross Intelligence未经许可复制旗下法律研究平台Westlaw的内容,包括人工编辑的法律要点摘编等受版权保护的资源。Ross Intelligence在构建搜索引擎时,曾将Westlaw的注释和批注转化为数值数据用于AI训练,在未获授权后,还购买相关问答材料继续用于训练。

比巴斯法官驳回了Ross Intelligence的所有抗辩理由,尤其针对“合理使用”这一关键争议。法官裁定,Ross Intelligence复制Westlaw内容用于开发竞争产品,不符合合理使用标准,且影响了Westlaw的市场价值,构成侵权。

本案涉及非生成式AI,而Ross Intelligence已因诉讼成本过高在2021年倒闭。当下,生成式人工智能热潮引发诸多法律纠纷,美国法院系统正审理数十起相关诉讼。此次判决对AI公司是一次打击,有专家认为若被其他法院援引,将对生成型AI公司不利,使AI公司在合理使用辩护中面临更多困难。

全国首例AI文生视频案宣判,“AI一键剪片”被判侵权

2月14日消息,全国首例AI文生视频侵权案落下帷幕。《庆余年》信息网络传播权人起诉某AI剪辑软件开发者,指控其利用AI技术切割、拼接《庆余年》剧集片段,诱导用户生成并传播侵权视频。

据悉,某网络公司开发的软件带有“AI一键成片”功能,可将影视作品切成3到7秒短视频提供给用户,该公司未经授权使用《庆余年》片段,还借此吸引流量、获取经济利益。科技公司因此将其告上长沙市开福区人民法院,要求停止侵权并赔偿损失。

一审法院经审理认为,被告公司未经授权向用户提供《庆余年》片段,且未履行注意义务、未建立有效侵权风险防范机制,侵犯了原告的信息网络传播权。不过,软件使用积分奖励等通用商业模式,且宣传内容未直接指向涉案作品,不构成间接侵权。最终,法院判决被告停止传播《庆余年》（第一季）内容,赔偿原告经济损失及合理支出80万元。被告不服上诉,长沙中院驳回上诉,维持原判。

本案承办法官表示,生成式人工智能技术发展迅速,目前尚无专门法律规范其服务提供者权利义务,应依据《中华人民共和国民法典》以“过错责任”为核心裁判规则,同时权衡技术发展阶段等要素,划定侵权责任认定边界。

-END-