任务

定义

  • 输入
    1. 用户需求 Q:包含出发地、目的地、时间范围、预算、人数、偏好等(自然语言形式)。
    2. 约束集合 C:包括三类
      • 硬约束(Hard):预算上限、旅行天数、交通可达性等;
      • 现实环境约束(Environment):如公共交通/航班不可用;
      • 常识约束(Commonsense):如每天必须包括住宿、饮食安排等。
  • 工具集 T:包含查航班、酒店、餐厅、地图、天气、预算估算等 API,用于事实检索与信息获取。
  • 模型:语言智能体 A,通常基于 LLM(如 GPT-4/Turbo),具备多步推理能力、工具调用机制(ReAct / Reflexion 等)来规划行程。
  • 目标:生成一个满足以下条件的旅行计划 :
    1. 合法性:满足输入约束 ;
    2. 可行性:存在可用工具数据支撑;
    3. 常识合理:符合日常常识安排(如餐食、住宿);
    4. 信息齐全:涵盖交通、景点、餐饮、住宿等组成部分。

query和constraint 形式化定义 调研

TravelPlanner 明确区分三类约束 (constraints) — Environment Constraint, Commonsense Constraint, Hard Constraint
ChinaTravel提出现实中用户 query 通常是 开放式 (open-ended)、组合性 (compositional)、隐式 (implicit),而不仅是结构化的 “slot-filling”。领域专用语言 (Domain-Specific Language, DSL),用于 组成性地 (compositionally) 定义约束 (constraints) 和偏好 (preferences)

metrics

Pass Rate(全局约束满足率)
Delivery Rate(任务完成率)
Constraint Pass Rate(约束满足比率)
Task Progress & Success Rate

文献调研-Travelplanning

神经】TravelPlanner: A Benchmark for Real-World Planning with Language Agents

OSU-NLP-Group/TravelPlanner: [ICML’24 Spotlight] “TravelPlanner: A Benchmark for Real-World Planning with Language Agents”
【benchmark】
实验设置:zero-shot

数据集

第一个数据集
多城市多天
不考虑市内交通

baseline模型方法

greedy

目标:cheapest

two-stage mode 【information collection+plan】

information collection–>tool use–>ReAct
plan

sole-planning

plan strategy:
Direct:直接输入查询
ZS-CoT:增加中间步骤【step by step】
ReAct:在推理过程中增加环境反馈
本文:增加了每日开销作为环境反馈
Reflexion:让模型自我反思 【任务尝试执行–触发反思–反思作为新的prompt–多轮执行】

提供了微调模型:

个性化】Personal Large Language Model Agents: A Case Study on Tailored Travel Planners

travelplanner+:personal LLM agents

user model generation

利用模型:AI User Model Generator+人类审查+控制分布,反应现实的多样性
包含信息:interests, favorite cuisines, activities, and personal user concepts
将user model作为结构化信息加入模型prompt

多轮约束/优先级冲突】Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents/ICLR2025

新增测评场景:
多轮约束引入
优先级冲突

个性化+符号】Personal Travel Solver: A Preference-Driven LLM-Solver System for Travel Planning【ACL

数据集:Realplanner
TravelPlanner+Google Local 的真实用户评论与 POI 元数据
cliftclift/PTS
技术贡献:
personality:分析用户历史点评来识别隐形偏好(基于评论的偏好挖掘)–输出用于候选poi的rerank
规划模块(SCIP 求解器):满足硬约束

个性化】TripTailor: A Real-World Benchmark for Personalized Travel Planning【ACL

real sandbox

data and code

swxkfm/TripTailor

更大规模城市覆盖与新评测框架

符号】Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools【NAACL

技术要点:
LLM+SMT
不可满足核驱动的交互式修复:把用户自然语言约束形式化成 SMT 约束后交给 Z3;若无解,用 Z3 的 unsat core 精准指出哪一组约束冲突,LLM据此解释原因 → 给出修改建议 → 改代码重求解
solver 和 reason都很重要

新任务:(强调零样本泛化)
根据论文,四个新任务包括:

  • Block Picking:搬运或选择方块/物体的组合操作,也许涉及堆叠、排序等;
  • Task Allocation:在多个可执行任务之间进行分配,例如将任务分配给不同资源或时间段;
  • Travelling Salesman Problem (TSP):经典的旅行商问题,即规划一个最优路径遍历多个地点;
  • Warehouse:可能涉及仓库中货物的搬运、任务安排或物资调度。

每个任务包含 25 个不同场景,用于测试模型在零样本下对新域的组合规划能力及约束推理水平。

神经+符号】ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning【IJCAI比赛数据集

技术贡献点:==generalizable domainspecific language (DSL)==
LAMDASZ-ML/ChinaTravel: ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning

### 实验结果
Split DR EPR Mic. EPR Mac. LPR Mic. LPR Mac. C-LPR FPR
easy 75.7 75.7 75.7 72.1 59.7 72.1 59.7
human 40.9 40.9 39.6 34.1 29.2 33.2 29.2

SOTA:DeepSeek-V3, OpenAI GPT-4o
open-source LLMs: Qwen3-8B, Llama3.1-8B, Mistral-7B,
https://arxiv.org/pdf/2412.13682

数据集

LAMDA-NeSy/ChinaTravel · Datasets at Hugging Face
跨城市(单一城市)多天多poi—-和传统poi推荐不一样

偏好要求:
hard logical constraints
soft preferences:代表用户喜欢或更希望达成的旅行特征
数据集特点:
Context-Rich Long-Horizon Planning
Diversity and Openness of Travel Requirements
Open Contextual Reasoning:要求中提到的和database中设计的属性不符合
设计了辅助任务:poi reasoning:LLMs to complete masked-DSL sentences through contextual reasoning.

数据集包含城市:北京、成都、重庆、广州、杭州、南京、上海、==深圳==、苏州、==武汉==

模型方法

pure-LLM-based:
Act
ReAct

neuro-symbolic methods
RuleDrivenAgent
规则方法生成骨架,llm润色
LLMDrivenAgent
LLM先进行用户需求解释及规划,使用规则进行验证,LLM无法给出合理方案的时候退回到RuleDrivenAgent

1
2
3
4
TTG:多约束问题转换为混合整数规划(先用LLM提取出最重要的poi)
LLM-modulo:先用LLM生成计划,再用符号验证指导模型改进
用groundtruth symbolic verification(真实验证结果)来驱动反思
NeSy planning

神经+符号】TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners

llm结合传统规划方法生成旅行计划
llm根据问题生成一个规划器来求解这个问题+可解释
优势:方案效用高,符合各种约束和需求
缺点:
仅仅支持单日行程规划
实时适应性不足

multi-agent】Vaiage: A Multi-Agent Solution to Personalized Travel Planning

==multi-agent协作==(基于图)

时空】TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning

motivation:nuanced spatialtemporal-aware travelplanning
利用web上的旅行轨迹(trajectory-level)做rag,生成时空一致的旅行计划
测评方法:
Ground-up llm baseline:Direct/CoT/MAC/MAD
Retrieval‑augmented baseline:检索轨迹后结合llm进行生成
EvoRAG

指标名称 描述
Spatial Efficiency 行程在空间上的紧凑程度与路径优化效果。参考轨迹检索显著提升了此项指标。
POI Rationality 推荐景点是否符合逻辑与用户期望,包括主题连贯性与排列合理性。EvoRAG 在此优于基线模型。
Spatiotemporal Compliance 行程是否在时间和空间上符合现实约束,避免安排脱离实际的安排。EvoRAG 表现更佳。
Commonsense Violations 行程中是否存在违背常识的错误(如安排冲突、不合理路线跳转),EvoRAG 大幅减少这类错误。

TravelRAG: A Tourist Attraction Retrieval Framework Based on Multi-Layer Knowledge Graph/IJGI

时空】TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning/ACL’25 (Main)

Soumyabrata2003/TripCraft: TripCraft (ACL’25 Main) establishes a new benchmark for LLM driven personalized travel planning, offering a more realistic, constraint aware framework for itinerary generation.

分阶段 agent】TravelAgent: An AI Assistant for Personalized Travel Planning

提出三个新的评价标准:(人工评审??)
Rationalily(合理性):旅行场景和计划合理性的约束
Comprehensiveness(全面性)
Personizaion
==有点太简单了,使用的metrics有待商榷==

脚本叙事】Narrative-Driven Travel Planning: Geoculturally-Grounded Script Generation with Evolutionary Itinerary Optimization

把“脚本 / 叙事逻辑” 与“行程优化”结合起来做联合设计

方法架构概述

该方法称为 NarrativeGuide,分为两个阶段:

  1. 初步脚本准备(Preliminary Script Preparation)
    • 构建城市内景点的 知识图谱(knowledge graph):每个景点是一个节点,节点属性包括历史背景、文化意义、地理位置等;节点之间的边则表示历史 / 文化 / 地理的联系。
    • 基于这个知识图谱设计一个 世界观(worldview)、角色设定(user character 与 guide character)、并生成一个前言(exposition)。
    • 为每个景点生成一个 独立场景脚本单元(scene unit),即把某个景点“讲成”一个小故事,包含 “介绍 / 发展 / 高潮 / 结尾” 四段结构。
  2. 叙事驱动的行程优化(Evolutionary Itinerary Optimization)
    • 将行程规划视为一个优化问题:选择一组景点 + 确定访问顺序,使得整体体验最优。
    • 为每对相邻景点(xi → xj),基于它们在知识图谱中的关联,生成一个 转换脚本(transition script),使得从一个场景顺畅过渡到下一个。这个转换脚本 + 各景点的场景脚本一起,组成完整旅行叙事。
    • 设计一个目标 / 适应度函数(fitness function),融合三个方面:
      1. 脚本连贯性 / 叙事一致性(script coherence)
      2. 旅行时间 / 通勤成本
      3. 景点质量 / 吸引力(attraction score)
    • 使用 遗传算法 (Genetic Algorithm, GA) 来搜索最优或近优行程。在每一代中,对候选方案进行交叉、变异、选择,评估其 fitness 值,逐步优化。

RL 灵活规划 空间合理】DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

sandbox
tool:用滴滴现成的api
data(收集和更新):
data caching mechanism :解决API QPS限制和检索数据不连续带来的失败
database:每日更新

agentic RL

分层奖励模型:
trajectory-level verifier
轨迹是否满足时空约束:Tripcraft – 粗筛
turn-level verifier
验证工具调用和旅行规划结果的一致性
由以上两个构成reward

multi-agent】RETAIL: Towards Real-world Travel Planning for Large Language Models

去掉了所有的工具调用

To the Globe (TTG): Towards Language-Driven Guaranteed Travel Planning

TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation

从openreview嫖到了数据和代码

multi-agent+revise 】ATLAS:Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning

技术贡献

ATLAS (Agent-based Travel planning with Live Adaptive Search)

problem setup:
translate query into CSP

任务特征:generete optimal, grounded solutions under complex constraints
constraints 分类:
explicit
implicit
evolving (based on interactions with dynamic environments and user needs)

background:
all necessary information is provided upfront / presume all constraints are known in advance
Monolithic agent cannot solve real-world travel planning

challenges:
constraint construction: 在没有先验知识的情况下从user query和search result中提取constraints
constraints-aware answering:生成..解决方案并验证约束:迭代修复循环(一个agent生成方案一个进行检验并给出反馈指导)
resolving information gap:判断失败原因(逻辑错误/信息不足):用强推理能力的agent来识别gap并推荐搜索

solution of challenges
constraint construction:Search Agent 负责外部搜索与把原始结果“结构化”为可用的候选域(例如可选的航班、酒店清单);Constraint Manager 在此基础上抽取显式与隐式约束
constraints-aware answering
resolving information gap:当不可满足来自“信息不全”而非“逻辑错误”时,引入 Search Advisor 诊断缺口并发起有针对性的新检索,与规划-校验过程交错进行。

关于【Plan Verification under Constraints】
在 ATLAS 中,Plan Verification under Constraints 采用一种 混合式约束检查方法
- 对显式约束,使用结构化谓词与符号/数值比较;
- 对隐式约束,利用 LLM-based commonsense checker 生成语义判定;
- 在多轮追加需求时,执行增量式、局部化验证;
最终输出 sat/unsat 标签与自然语言 violation 报告,形成对 Planner 的精确反馈回路。

contributions:
Travelplanner benchmark 更好的效果
multi-turn - flexible
超越sandbox的实际可用性–现实场景实验84% final pass rate

实验结果

Cost Analysis:
planner和search耗时最多
constraints和checker耗时短但是提升大

多轮对话追加需求(D.3)
在所有多轮设置下,ATLAS 都 显著优于 ReAct
随着对话轮数增加(更复杂的约束追加顺序),ReAct 的通过率极低,而 ATLAS 的提升空间更大,两者差距拉大

相似任务】ItiNera: Integrating Spatial Optimization with Large Language Models for Open-domain Urban Itinerary Planning

任务:OUIP(城市漫步规划)

城市内单日多时段漫步
对比travelplan:跨城市多天旅行计划
重视空间连贯性、路径最短、场景连贯

方面 OUIP (ItiNera) TravelPlanner
场景 城市内部、单日/漫步路径 跨城、多天、全行程(含交通、住宿等)
核心目标 空间连贯与用户漫步舒适度 满足多维约束,输出完整旅行计划
技术手段 聚类 & TSP + LLM生成行程描述 多工具调用 + 反思机制 + 多约束推理
评价标准 路径紧凑性、偏好匹配 约束满足率、计划成功率、commonsense评分等

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

评估 MLLMs 在高分辨率地图上的细粒度视觉理解与空间推理能力
metrics:
accuracy
map score【地图评分机制】

Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming【25/ICLR】

[LLMFP]https://sites.google.com/view/llmfp