案例中的数据类型区分与权属分析（69）

摘要：为证明其主张，百度公司对涉案词条进行公证取证，并先后单方委托鉴定、申请法院进行鉴定，对涉案词条进行比对（包括内容、暗记、源代码等一致性比对），用以证明：1）被告百科产品中有大量词条内容和原告产品中的词条内容一致；2）被告词条存在包含原告暗记等信息、词条内容异常

百度公司主张互动公司实施了“未经许可，采用技术手段抓取百度百科中的涉案词条并在互动百科中进行传播”的被诉行为。

为证明其主张，百度公司对涉案词条进行公证取证，并先后单方委托鉴定、申请法院进行鉴定，对涉案词条进行比对（包括内容、暗记、源代码等一致性比对），用以证明：1）被告百科产品中有大量词条内容和原告产品中的词条内容一致；2）被告词条存在包含原告暗记等信息、词条内容异常、上传者用户信息及行为异常等情形，说明被告存在使用技术手段抓取原告词条的情况。

互动公司虽然否认自己实施了被诉行为并充分发表质证意见，但因缺乏证据支撑、无法提出合理解释而未获采信。

先看词条内容一致性比对问题：

百度公司使用为取证而编写的爬虫程序，抓取涉案词条并进行证据固定，最终形成16本公证书。（第一次鉴定）百度公司单方委托鉴定机构对双方词条进行比对，A司法鉴定所对双方涉案词条的标题、摘要、正文进行一致性比对后，在2020年8月出具第829号司法鉴定意见书，内容显示两个文件夹中有19774个相同文件名的网页文件，“标题”“摘要”“正文”完全相同的文件共计19647个。（第二次鉴定）诉讼过程中，百度公司在2022年10月向法院申请鉴定，原被告双方协商一致选定B研究院于2023年4月、10月出具第500-1号、第500-2号鉴定意见书，前者是针对原告取证手段进行的鉴定，后者是针对内容一致性等事项的鉴定，鉴定意见显示“双方词条相同内容占一方词条内容，达到100%的共计597635条……达到80%以上的条数为634486条”。

互动公司既不认可百度公司取证方法，也不认可一致性比对方法和结论。

取证方法方面：

百度公司取证时使用baike_crawler和XAMPP软件抓取涉案词条。其中，baike_crawler是百度公司为取证所编写的程序，具备访问互动百科和百度百科网站、获取、解析、保存互动百科网站和百度百科网站词条内容、词条历史版本、贡献者信息的功能。XAMPP是作为代码运行环境的开源软件包，下载自百度网，具备读取前述存储内容的功能。随着时间推移，被告网站中部分涉案词条版本已不再对外展示，这导致诉讼中使用前述爬虫软件无法抓取部分页面。互动公司答辩时对第500-1号鉴定意见书提出质疑，认为B研究院鉴定时未遵守《软件功能鉴定技术规范》中规定的方法，未客观、准确地记录软件运行的结果。B研究院回函称：1）该规范只是参照方法，并非本次鉴定的全部实施方法；2）鉴定过程中已实际运行“baike_crawler”软件，该软件无法正常抓取“互动百科”网页是因外部原因导致无法完成全部功能（这里有个背景是）；结合3）软件功能实现系统过源代码编写设计来实现的；4）公证取证时已经实际运行该软件，经过公证证明该软件可以正常抓取网页，因此，鉴定针对三个版本的爬虫软件源代码进行分析以验证软件功能，方法科学、结论可靠。B研究院在提取双方数据后，根据标题和用户去重后的匹配词条数为634640对：

1）词条提取和过滤主要涉及从鉴定材料中的双方网页中提取词条内容等信息，同时对词条内容中的标点符号、特殊符号、乱码、汉语拼音、图片和表格信息进行过滤，得到只包含标题、摘要正文中文字内容（不包括每个段落的标题与副标题）的词条信息，形成词条标题、摘要和正文需要比对的词条内容等信息。

2）“词条对应”主要涉及对双方词条建立对应关系，具体包括在鉴定材料“目录包”范围内匹配双方词条实现词条对应，“词条文件对应”主要在“目录包”对应的基础上完成的，目录内的双方文件对应主要基于词条文件名、词条标题及词条内容等要素。

3）“词条筛选”主要涉及对双方有对应关系的词条进行选，具体包括整体去重、取最匹配对应关系、过滤掉无实质内容的词条等，形成双方匹配词条及比对结果。

鉴定组对词条内容（只包含标题、摘要、正文中文字内容，不包括每个段落的标题与副标题）一致性达到100%、95%以上、90%以上、85%以上、80%以上的词条数量进行统计，结论是“双方词条相同内容占一方词条内容，达到100%的共计597635条；……；达到80%以上的条数为634486条”。互动公司不认可上述结论，以举例说明的方式主张统计数据存在错误、统计的比例不能反映双方词条的一致性：

1）鉴定机关的统计数据存在明显错误，例如，“Flash游戏设计案例教程.txt”词条，鉴定机构统计的百度词条字符数为527562，而该词条的字符数仅为5000字，误差高达100余倍。鉴定机构系通过编写程序的方式对相关数据进行机器统计，一旦有数据出现错误，显然是鉴定机构采用的机器统计的方法在整体上存在错误。

2）鉴定机关统计的相同字符数和一致性比例不能反映双方词条实际的一致性情况，例如，“《咨询师与团体：理论、培训与实践（原书第4版）》”词条，鉴定机构提取出的互动百科的字符数为15258，百度百科词条内容的字符数为2595，相同的字符数为2502，相同的字符占互动百科的比例为16.40%，占百度百科的比例为96.4%，鉴定机构将之归入到了一致性比例占95%以上的词条数据中。实际上，相同字符仅占互动词条内容的16.4%，该互动百科词条中含有大量与对应百度词条无关的内容，该相似比例不能得出双方词条一致性达到95%的结论，更无法得出互动百科的词条内容是来源自百度百科的结论。

B研究院对此回函解释称：1）鉴定组根据比对要求总结出目前认为比较合理的比对方法，即，逐字比对加对齐原则，即逐字比对找到第一个相同字符后，遍历查找下一个字符，如相同，记录为相同字符：如出现不同字符，则跳过，向后查找下一个字符。2）针对统计比例问题，对相同字符数占双方字符数的各自比例进行列明，对比例较大的百分数进行列明，上述比例均为客观事实。B研究院同时对数据偏差进行修正，补充了738条数据比对修正结果：

1）经核验，仅“Flash游戏设计案例教程.txt”词条存在循环抓取问题，该词条页面含有para特征的div嵌套太多导致数据量过大，最终导致内存溢出报错。因此鉴定组对该词条单独编写抓取程序，进行单独抓取。但是在抓取过程中，由于编写程序对该页面的特殊情况处理不当导致循环抓取，数据仍有问题，此情况为特例；并对该词条进行了修正。

2）内容一致性比对时有极少数数据统计存在偏差，经分析，原因为第500-2号鉴定意见中的字符提取的方法适用于63万余条数据中的绝大多数网页，由于极少量网页的框架原因，没有将副标题排除掉。鉴定组在分析此类网页框架后，发现有738条网页需要将副标题排除掉，因此对问题网页进行重新抓取并比对，并补充修正结果。

百度公司于2022年10月申请司法鉴定，原被告双方协商一致选定B研究院后，法院发出司法鉴定委托并移送公证书、U盘等检材，期间也组织了三次鉴定询问。B研究院根据原被告双方确定的鉴定事项和方式进行鉴定，分别在在2023年4月、10月出具两份鉴定意见书，又分别在2023年5月、11月、12月三次就异议问题出具回复函。互动公司虽然不认可比对方法和结论，但始终未提出更合理的比较方法，也未对词条相同等情况作出合理解释，其异议未获法院采信。法院认为：

鉴定机构采用的一致性比对方法已经是现有技术条件下进行确认和统计的较为科学的方法，即便存在一方词条在相同内容之外仍存在其他内容的情况，并不影响双方词条存在重合内容这一事实的认定；事件类词条与实际发生事件比较的方法较为科学，且互动公司亦未提出更合理的比较方法，亦未就为何其词条中存在与百度百科对应词条相同内容的情况作出合理解释；虽然鉴定意见书未比对双方词条发布时间先后顺序，但基于以下情形可认定互动百科中涉案词条的发布时间不具有参考性——互动百科中涉案词条的发布存在诸多与常理不符的异常情形，比如：数量极大的不同用户在同一时间编辑同一个词条；不同历史版本发布时间间隔为0；事件类词条的创建和编辑时间早于真实事件发生时间等。

法院在事实查明后确认，本案中百度公司主张的634472条涉案词条均为修正后事项2中一致性比对结果达到 80%以上的词条。

明天看“抓取”相关的举证质证。

来源：YunfangW

标签：百度词条百度百科字符 xampp

本文地址：http://news.43b.com.cn/a/548598.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!