分享几个常用的搜索API调用工具。在开发大模型相关AI应用时,搜索功能是不可或缺的,而以下这些工具是我精心整理的。整体来看,谷歌搜索插件在国内外应用最为广泛。若需自行部署,谷歌搜索是相对较好的选择。国外市场上,存在许多提供免费试用额度的搜索API,如exa search api,新人注册即可享受1000次免费搜索机会。该服务专注于大模型的搜索需求,能够提供更为精炼的html搜索结果,并依据用户意图进行精准搜索,而非简单的谷歌搜索体验。
exa和firecrawl都是值得推荐的搜索API调用工具。其中,firecrawl的API需要付费使用,但价格相对亲民,50美元可享受5万次的搜索次数。此外,firecrawl在平台上提供免费试用机会,虽然每次只能搜索一个页面且不支持并发,但其返回的结果更适合大模型,以md和json格式呈现,为开发大模型相关AI应用提供有力支持。
近期,firecrawl的官方网站原本提供了search功能,但遗憾的是,该功能已在最近两天内被暂时下线。
近期,firecrawl的官方网站search功能虽然已暂时下线,但关于其功能特点,我们仍可以回顾一下。当新人注册时,会获得2500个credit,即2500次搜索机会。与传统的搜索引擎相比,firecrawl和exa能够更准确地理解用户意图,从而提供更精准的搜索结果。例如,当用户搜索“防水领域热点新闻”时,传统的搜索引擎可能会仅仅搜索到“热点”和“新闻”这样的关键词,而firecrawl和exa则能明确用户真正想要的是防水相关的新闻,因此能直接搜索到“防水新闻”。
另外,还有一个名为SERP的接口,它与firecrawl和exa有所不同,容易混淆,但同样被广泛使用。在国内,这些接口通常不会在开源框架中单独列出,而是需要根据项目的示例进行定制。例如,Flowise框架就提供了这样的灵活性。然而,像搜狗、百度和国内版必应这样的搜索引擎,在搜索谷歌内容时可能不如直接使用SERP等接口来得高效。为了获取中文内容,可能需要通过其他手段进行调试。令人欣慰的是,天工搜索能够搜索小红书的内容,这得益于与相关平台的合作。希望未来能有更多类似的合作,提供抖音、小红书、知乎和公众号等平台的搜索API。
在此提醒,某些搜索API只能返回诸如题目、作者、时间和URL等偏属性内容,而无法直接提供搜索结果。例如,聚合搜索的API就适合搜索本土新闻,但需要注意的是,注册并实名认证后每天只能免费调用50次。
然而,尽管某些搜索API能够返回新闻的偏属性内容,如题目、作者和时间等,但直接调用新闻全文仍然存在不便。为了获取完整的新闻内容,通常需要再通过一个小接口进行查询,这在一定程度上影响了使用的便捷性。
天行数据提供了专门的新闻接口服务,满足各种新闻获取需求。对于免费用户,每日可调用次数高达100次,轻松获取所需新闻。
然而,无论是新闻调用还是微信公众号的使用,所返回的信息均限于标题、作者、时间以及URL等属性,而不包含原文内容。这一点对于许多用户来说可能是一个限制,但目前的技术条件下,这是不可避免的。
此外,我在探索过程中还发现,像飞书和公众号这样的API,并不像Notion那样能够直接获取到原文内容。它们所提供的服务更多的是围绕标题、作者、链接和时间等属性展开的。如果你需要获取原文内容,可能需要借助其他技术手段,比如爬虫。
另一方面,网络搜索方面,使用自带搜索功能的大模型通常是最便捷的选择。例如,某些提供openai key的服务就内置了搜索功能,这为用户提供了极大的便利。然而,值得注意的是,并非所有模型都具备这样的搜索功能,因此在实际使用时,可能需要根据具体情况来选择和配置相应的搜索插件。