SharePoint 搜索：处理包含下划线的文件名

Question 1

我不认为下划线被视为分隔符，social.technet 上的一些流量似乎证实了这一点。如果（因为）是这种情况，您需要进行部分/通配符搜索以匹配“chocolate_cake.doc”中的“chocolate”，而核心结果 Web 部件不会这样做。但是，有一个 codeplexWeb 部件2007 年正是如此。

仅供参考，2010 版同一 Web 部件指出，SharePoint 2010 添加了通配符搜索，只要用户输入星号。

Answer

我不认为下划线被视为分隔符，social.technet 上的一些流量似乎证实了这一点。如果（因为）是这种情况，您需要进行部分/通配符搜索以匹配“chocolate_cake.doc”中的“chocolate”，而核心结果 Web 部件不会这样做。但是，有一个 codeplexWeb 部件2007 年正是如此。

仅供参考，2010 版同一 Web 部件指出，SharePoint 2010 添加了通配符搜索，只要用户输入星号。

Question 2

我已经确认，分词器决定了文档内容和文件名的下划线处理方式。分词器是在注册表中根据每种语言进行配置的。

分词器以 ActiveX 控件的形式实现，理论上应该可以编写自己的分词器（Microsoft Platform SDK for Windows XP 包含一个示例“lrsample”），但我手头没有工具可以这样做。似乎 Microsoft 提供的许多分词器都将下划线视为单词的一部分，但我确实找到了一个在下划线处分词的分词器：简体中文分词器版本 2（chsbrkr.dll - 1,677,824 字节）。请注意，此行为与简体中文分词器版本 3 不同，后者是 Search Server 2008 Express 和 SharePoint 2007 中提供的分词器。

因此，为了获得我想要的搜索行为，我已将 SharePoint Search 配置为使用此分词器：

将 DLL 复制到 C:\Program Files\Microsoft Office Servers\12.0\Bin\chsbrkr2.dll
使用 regedit 浏览到 HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\12.0\Search\Setup\ContentIndexCommon\LanguageResources\Default
对于相关语言，在我的情况下是“英语（英国）”和“英语（美国）”，修改以下键：（ "WBDLLPathOverride" = "C:\PROGRA~1\MI54E7~1\12.0\Bin\ChsBrkr2.dll"您的路径可能不同）和 "WBreakerClass" = "{9717fc70-c1bc-11d0-9692-00a0c908146e}"
重新启动“Office SharePoint Server Search”服务（可以通过命令行运行，net stop osearch然后执行来完成net start osearch）。
转到搜索管理页面并启动完整爬网。

除了将下划线视为分词符之外，我不确定 chsbrkr.dll 和默认英语分词器之间是否存在其他重大差异，但到目前为止，它没有给我带来任何问题。如果有一种方法可以将自定义分词器应用于特定的托管属性（在本例中为 Path），那就太好了，但我不知道这是否可行。数据库的 MSSManagedProperties 表中有一个名称很有希望的列，名为“WordBreakerOverride”，但我不知道它的用途是什么。

笔记：在 SharePoint 2010 中，托管属性显然有一个名为 SplitStringCharacters 的附加设置，这很可能使这种解决方法过时。

Answer