“携程问道”问不明白道

闻旅 2024-10-16 00:14:16

想靠AI旅游的朋友，终究还是没有在携程上问明白道。

我有个犟种朋友，喜欢各类科技花活，每次网上有新东西他都要试试。这个十一他要尝试的是靠旅游行业垂直大模型——携程问道，实现AI旅游。

我告诉他，AI旅游这事现在不靠谱。

整个大模型行业目前公认的事实是，AI大模型在发散性的内容上可能会超出预期，但在实际规划和落地的任务上，基本只能处于copilot的角色，人力还是主导。问吃喝、本地游玩、出规划，还不如大众点评、小红书高效。

甚至不如问我。

因为用户在所谓的靠AI旅游这件事上，需要的是一个AI Agent（AI智能体/助理/助手）。而AI Agent要求的是精确性，但目前AI大模型的发散性大于精确性，因此AI旅游在当下还是一个悖论。

比如说想在上海玩，AI会搜索历史数据和信息，告诉你外滩、石库门、武康路、东方明珠、豫园、淮海路你都值得逛逛。但如果需要一个符合自己喜好的专属行程，AI提供不了。你只能在AI提供的信息资料里做二次的人工筛选。

如果你想玩的更local一点，比如想找一家有品位的精酿吧，演绎水平高的剧本杀店，小姐姐多套路少的夜店，AI更推荐不出来。也就是说，携程问道目前成不了AI Agent。

但显然，我的犟种朋友不想听我哔哔赖赖。

于是我们直接进入测试，让携程问道出一个10月2号—10月6号在上海的行程规划。结果携程问道只帮我们把行程规划到了10月4号，10月5号和10月6号的行程它让我们自己发挥。嗯……我上一个00后实习生，是领导家亲戚，也差不多是这个味儿。

我们又问了下武康路到底有点什么独特魅力，究竟能玩点啥？得出的结论是Citywalk。然后我们告诉携程问道，如果不想在上海Citywalk，是否有更好的行程推荐。

结果携程问道把之前推给我们的行程又重复了一遍。

好吧，黔驴技穷。

最后我们告诉携程问道，想住在中山公园附近，让他推荐几家酒店。可能由于没有精确的告诉它是上海中山公园，所以携程问道给我推荐了天南地北，各个地方中山公园附近的酒店。这就很迷，咱们和携程问道聊了半天，不一直都在聊上海旅游的事么？这点前后文语义的识别也这么困难么？

大模型行业里有个词叫“AI幻觉”，即人工智能系统（自然语言处理模型）生成的内容与真实数据不符，或偏离用户指令的现象。

说白了就是，用户问前门楼子，AI答胯骨轴子。

短短三四个问题，我们看到携程问道一直沉浸在AI幻觉中，离需要准确性的AI Agent还有不少距离。诚然，造成AI幻觉的的原因有很多，从数据质量差到算法缺陷，再到缺乏接地和过度拟合，都会导致AI幻觉。

然而，所有这些原因的核心是：AI 模型的输出取决于它们的输入，或它们为处理所述输入而设计的方式。归根结底，AI 模型无法自我推理、研究或事实核查。因此，需要准确性的AI Agent，在当下还无法完美实现。

理想状态下的AI Agent是，大多数时候你只需给它一个最终你想要达成的目标，它能直接交付结果，过程你啥都不用管。

康奈尔大学、华盛顿大学和滑铁卢大学以及非营利研究机构AI2的研究人员，最近进行了一项研究，测试了GPT-4o、Meta的Llama370B、Mistral的Mixtral 8x22B、Cohere的Command R+，以及调用API的模型，比如Perplexity的Sonar Large（基于Llama）、Google的Gemini 1.5 Pro和 Anthropic的Claude 3 Opus等多个开源模型，

实验证明，各家模型产生的AI幻觉半斤八两。在答案来源不是维基百科的情况下，每个模型的平均回答事实性都较低。当然，从另一个维度看，没有AI幻觉，大模型就没有发展可言。

但在目前这种AI幻觉泛滥的环境下，用户想要一个规划行程的Agent，或是某个行业的最新资讯和报告，幻觉就是致命缺陷。很明显在这种情况下，以AI Agent为目标的AI旅游大模型，目前基本都是悖论。最多只是一个网络素材整合工具。

这种窘态不止出现在携程问道身上。字节的豆包、百度的文心一言等等，在AI旅游的表现上都挺一般。尤其是在理解复杂用户需求和提供精准个性化服务方面。要么行程过于空洞，不知无谓。要么AI幻觉爆发，自己加戏太多，甚至一些AI模型连门票价格都会报错。