Travelplanning文献调研

发表于 2026-01-23

任务

定义

输入
1. 用户需求 Q：包含出发地、目的地、时间范围、预算、人数、偏好等（自然语言形式）。
2. 约束集合 C：包括三类
  - 硬约束（Hard）：预算上限、旅行天数、交通可达性等；
  - 现实环境约束（Environment）：如公共交通/航班不可用；
  - 常识约束（Commonsense）：如每天必须包括住宿、饮食安排等。
工具集 T：包含查航班、酒店、餐厅、地图、天气、预算估算等 API，用于事实检索与信息获取。
模型：语言智能体 A，通常基于 LLM（如 GPT-4/Turbo），具备多步推理能力、工具调用机制（ReAct / Reflexion 等）来规划行程。
目标：生成一个满足以下条件的旅行计划：
1. 合法性：满足输入约束；
2. 可行性：存在可用工具数据支撑；
3. 常识合理：符合日常常识安排（如餐食、住宿）；
4. 信息齐全：涵盖交通、景点、餐饮、住宿等组成部分。

query和constraint 形式化定义调研

TravelPlanner 明确区分三类约束 (constraints) — Environment Constraint, Commonsense Constraint, Hard Constraint
ChinaTravel提出现实中用户 query 通常是开放式 (open-ended)、组合性 (compositional)、隐式 (implicit)，而不仅是结构化的 “slot-filling”。领域专用语言 (Domain-Specific Language, DSL)，用于组成性地 (compositionally) 定义约束 (constraints) 和偏好 (preferences)

metrics

Pass Rate（全局约束满足率）
Delivery Rate（任务完成率）
Constraint Pass Rate（约束满足比率）
Task Progress & Success Rate

文献调研-Travelplanning

【神经】TravelPlanner: A Benchmark for Real-World Planning with Language Agents

OSU-NLP-Group/TravelPlanner: [ICML’24 Spotlight] “TravelPlanner: A Benchmark for Real-World Planning with Language Agents”
【benchmark】
实验设置：zero-shot

数据集

第一个数据集
多城市多天
不考虑市内交通

baseline模型方法

greedy

目标：cheapest

two-stage mode 【information collection+plan】

information collection–>tool use–>ReAct
plan

sole-planning

plan strategy:
Direct：直接输入查询
ZS-CoT：增加中间步骤【step by step】
ReAct：在推理过程中增加环境反馈
本文：增加了每日开销作为环境反馈
Reflexion：让模型自我反思【任务尝试执行–触发反思–反思作为新的prompt–多轮执行】

提供了微调模型：

【个性化】Personal Large Language Model Agents: A Case Study on Tailored Travel Planners

travelplanner+:personal LLM agents

user model generation

利用模型：AI User Model Generator+人类审查+控制分布，反应现实的多样性
包含信息：interests, favorite cuisines, activities, and personal user concepts
将user model作为结构化信息加入模型prompt

【多轮约束/优先级冲突】Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents/ICLR2025

新增测评场景：
多轮约束引入
优先级冲突

【个性化+符号】Personal Travel Solver: A Preference-Driven LLM-Solver System for Travel Planning【ACL】

数据集：Realplanner
TravelPlanner+Google Local 的真实用户评论与 POI 元数据
cliftclift/PTS
技术贡献：
personality:分析用户历史点评来识别隐形偏好（基于评论的偏好挖掘）–输出用于候选poi的rerank
规划模块（SCIP 求解器）：满足硬约束

【个性化】TripTailor: A Real-World Benchmark for Personalized Travel Planning【ACL】

real sandbox

data and code

swxkfm/TripTailor

更大规模城市覆盖与新评测框架

【符号】Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools【NAACL】

技术要点：
LLM+SMT
不可满足核驱动的交互式修复：把用户自然语言约束形式化成 SMT 约束后交给 Z3；若无解，用 Z3 的 unsat core 精准指出哪一组约束冲突，LLM据此解释原因 → 给出修改建议 → 改代码重求解
solver 和 reason都很重要

新任务：（强调零样本泛化）
根据论文，四个新任务包括：

Block Picking：搬运或选择方块／物体的组合操作，也许涉及堆叠、排序等；
Task Allocation：在多个可执行任务之间进行分配，例如将任务分配给不同资源或时间段；
Travelling Salesman Problem (TSP)：经典的旅行商问题，即规划一个最优路径遍历多个地点；
Warehouse：可能涉及仓库中货物的搬运、任务安排或物资调度。

每个任务包含 25 个不同场景，用于测试模型在零样本下对新域的组合规划能力及约束推理水平。

【神经+符号】ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning【IJCAI比赛数据集】

技术贡献点：==generalizable domainspecific language (DSL)==
LAMDASZ-ML/ChinaTravel: ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning

### 实验结果

Split	DR	EPR Mic.	EPR Mac.	LPR Mic.	LPR Mac.	C-LPR	FPR
easy	75.7	75.7	75.7	72.1	59.7	72.1	59.7
human	40.9	40.9	39.6	34.1	29.2	33.2	29.2

SOTA:DeepSeek-V3, OpenAI GPT-4o
open-source LLMs： Qwen3-8B, Llama3.1-8B, Mistral-7B,
https://arxiv.org/pdf/2412.13682

数据集

LAMDA-NeSy/ChinaTravel · Datasets at Hugging Face
跨城市（单一城市）多天多poi—-和传统poi推荐不一样

偏好要求：
hard logical constraints
soft preferences:代表用户喜欢或更希望达成的旅行特征
数据集特点：
Context-Rich Long-Horizon Planning
Diversity and Openness of Travel Requirements
Open Contextual Reasoning：要求中提到的和database中设计的属性不符合
设计了辅助任务：poi reasoning:LLMs to complete masked-DSL sentences through contextual reasoning.

数据集包含城市：北京、成都、重庆、广州、杭州、南京、上海、==深圳==、苏州、==武汉==

模型方法

pure-LLM-based：
Act
ReAct

neuro-symbolic methods
RuleDrivenAgent
规则方法生成骨架，llm润色
LLMDrivenAgent
LLM先进行用户需求解释及规划，使用规则进行验证，LLM无法给出合理方案的时候退回到RuleDrivenAgent

TTG：多约束问题转换为混合整数规划（先用LLM提取出最重要的poi）
LLM-modulo：先用LLM生成计划，再用符号验证指导模型改进
	用groundtruth symbolic verification（真实验证结果）来驱动反思
NeSy planning

【神经+符号】TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners

llm结合传统规划方法生成旅行计划
llm根据问题生成一个规划器来求解这个问题+可解释
优势：方案效用高，符合各种约束和需求
缺点：
仅仅支持单日行程规划
实时适应性不足

【multi-agent】Vaiage: A Multi-Agent Solution to Personalized Travel Planning

==multi-agent协作==（基于图）

【时空】TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning

motivation:nuanced spatialtemporal-aware travelplanning
利用web上的旅行轨迹（trajectory-level）做rag，生成时空一致的旅行计划
测评方法：
Ground-up llm baseline:Direct/CoT/MAC/MAD
Retrieval‑augmented baseline:检索轨迹后结合llm进行生成
EvoRAG

指标名称	描述
Spatial Efficiency	行程在空间上的紧凑程度与路径优化效果。参考轨迹检索显著提升了此项指标。
POI Rationality	推荐景点是否符合逻辑与用户期望，包括主题连贯性与排列合理性。EvoRAG 在此优于基线模型。
Spatiotemporal Compliance	行程是否在时间和空间上符合现实约束，避免安排脱离实际的安排。EvoRAG 表现更佳。
Commonsense Violations	行程中是否存在违背常识的错误（如安排冲突、不合理路线跳转），EvoRAG 大幅减少这类错误。

TravelRAG: A Tourist Attraction Retrieval Framework Based on Multi-Layer Knowledge Graph/IJGI

【时空】TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning/ACL’25 (Main)

Soumyabrata2003/TripCraft: TripCraft (ACL’25 Main) establishes a new benchmark for LLM driven personalized travel planning, offering a more realistic, constraint aware framework for itinerary generation.

【分阶段 agent】TravelAgent: An AI Assistant for Personalized Travel Planning

提出三个新的评价标准:（人工评审？？）
Rationalily（合理性）：旅行场景和计划合理性的约束
Comprehensiveness（全面性）
Personizaion
==有点太简单了，使用的metrics有待商榷==

【脚本叙事】Narrative-Driven Travel Planning: Geoculturally-Grounded Script Generation with Evolutionary Itinerary Optimization

把“脚本 / 叙事逻辑” 与“行程优化”结合起来做联合设计

方法架构概述

该方法称为 NarrativeGuide，分为两个阶段：

初步脚本准备（Preliminary Script Preparation）
- 构建城市内景点的 知识图谱（knowledge graph）：每个景点是一个节点，节点属性包括历史背景、文化意义、地理位置等；节点之间的边则表示历史 / 文化 / 地理的联系。
- 基于这个知识图谱设计一个 世界观（worldview）、角色设定（user character 与 guide character）、并生成一个前言（exposition）。
- 为每个景点生成一个 独立场景脚本单元（scene unit），即把某个景点“讲成”一个小故事，包含 “介绍 / 发展 / 高潮 / 结尾” 四段结构。
叙事驱动的行程优化（Evolutionary Itinerary Optimization）
- 将行程规划视为一个优化问题：选择一组景点 + 确定访问顺序，使得整体体验最优。
- 为每对相邻景点（xi → xj），基于它们在知识图谱中的关联，生成一个 转换脚本（transition script），使得从一个场景顺畅过渡到下一个。这个转换脚本 + 各景点的场景脚本一起，组成完整旅行叙事。
- 设计一个目标 / 适应度函数（fitness function），融合三个方面：
  1. 脚本连贯性 / 叙事一致性（script coherence）
  2. 旅行时间 / 通勤成本
  3. 景点质量 / 吸引力（attraction score）
- 使用 遗传算法 (Genetic Algorithm, GA) 来搜索最优或近优行程。在每一代中，对候选方案进行交叉、变异、选择，评估其 fitness 值，逐步优化。

【RL 灵活规划空间合理】DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

sandbox
tool:用滴滴现成的api
data（收集和更新）:
data caching mechanism ：解决API QPS限制和检索数据不连续带来的失败
database:每日更新

agentic RL

分层奖励模型：
trajectory-level verifier
轨迹是否满足时空约束：Tripcraft – 粗筛
turn-level verifier
验证工具调用和旅行规划结果的一致性
由以上两个构成reward

【multi-agent】RETAIL: Towards Real-world Travel Planning for Large Language Models

去掉了所有的工具调用

To the Globe (TTG): Towards Language-Driven Guaranteed Travel Planning

TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation

从openreview嫖到了数据和代码

【multi-agent+revise 】ATLAS：Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning

技术贡献

ATLAS (Agent-based Travel planning with Live Adaptive Search)

problem setup:
translate query into CSP

任务特征：generete optimal, grounded solutions under complex constraints
constraints 分类:
explicit
implicit
evolving (based on interactions with dynamic environments and user needs)

background:
all necessary information is provided upfront / presume all constraints are known in advance
Monolithic agent cannot solve real-world travel planning

challenges:
constraint construction: 在没有先验知识的情况下从user query和search result中提取constraints
constraints-aware answering:生成..解决方案并验证约束：迭代修复循环（一个agent生成方案一个进行检验并给出反馈指导）
resolving information gap:判断失败原因（逻辑错误/信息不足）：用强推理能力的agent来识别gap并推荐搜索

solution of challenges
constraint construction:Search Agent 负责外部搜索与把原始结果“结构化”为可用的候选域（例如可选的航班、酒店清单）；Constraint Manager 在此基础上抽取显式与隐式约束
constraints-aware answering
resolving information gap:当不可满足来自“信息不全”而非“逻辑错误”时，引入 Search Advisor 诊断缺口并发起有针对性的新检索，与规划-校验过程交错进行。

关于【Plan Verification under Constraints】
在 ATLAS 中，Plan Verification under Constraints 采用一种 混合式约束检查方法：
- 对显式约束，使用结构化谓词与符号/数值比较；
- 对隐式约束，利用 LLM-based commonsense checker 生成语义判定；
- 在多轮追加需求时，执行增量式、局部化验证；
最终输出 sat/unsat 标签与自然语言 violation 报告，形成对 Planner 的精确反馈回路。

contributions:
Travelplanner benchmark 更好的效果
multi-turn - flexible
超越sandbox的实际可用性–现实场景实验84% final pass rate

实验结果

Cost Analysis：
planner和search耗时最多
constraints和checker耗时短但是提升大

多轮对话追加需求（D.3）
在所有多轮设置下，ATLAS 都 显著优于 ReAct
随着对话轮数增加（更复杂的约束追加顺序），ReAct 的通过率极低，而 ATLAS 的提升空间更大，两者差距拉大

【相似任务】ItiNera: Integrating Spatial Optimization with Large Language Models for Open-domain Urban Itinerary Planning

任务：OUIP（城市漫步规划）

城市内单日多时段漫步
对比travelplan:跨城市多天旅行计划
重视空间连贯性、路径最短、场景连贯

方面	OUIP (ItiNera)	TravelPlanner
场景	城市内部、单日/漫步路径	跨城、多天、全行程（含交通、住宿等）
核心目标	空间连贯与用户漫步舒适度	满足多维约束，输出完整旅行计划
技术手段	聚类 & TSP + LLM生成行程描述	多工具调用 + 反思机制 + 多约束推理
评价标准	路径紧凑性、偏好匹配	约束满足率、计划成功率、commonsense评分等

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

评估 MLLMs 在高分辨率地图上的细粒度视觉理解与空间推理能力
metrics:
accuracy
map score【地图评分机制】

Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming【25/ICLR】

[LLMFP]https://sites.google.com/view/llmfp

任务

定义

query和constraint 形式化定义 调研