Beancount.io LogoBeancount.io

4 tagged with "Fintech"

Financial technology research, platforms, and infrastructure for modern accounting systems

View all tags

FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under MCP
·mike

FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under MCP

FinMCP-Bench evaluates six LLM models on 613 real-world financial tool-use tasks backed by 65 MCP servers — the best model scores 3.08% exact match on multi-turn tasks, revealing a 20× performance collapse from single-tool to multi-turn scenarios.

ai
llm
automation
beancount
+3
FinTrace: Trajectory-Level Evaluation of LLM Tool Calling for Financial Tasks
·mike

FinTrace: Trajectory-Level Evaluation of LLM Tool Calling for Financial Tasks

FinTrace benchmarks 13 LLMs on 800 expert-annotated financial task trajectories across 9 metrics, finding that frontier models achieve strong tool selection (F1 ~0.9) but score only 3.23/5 on information utilization — the step where agents reason over what tools return.

llm
ai
finance
fintech
+3
FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах
·mike

FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах

FinToolBench поєднує 760 активних фінансових інструментів API з 295 виконуваними запитами для тестування агентів LLM на реальних фінансових завданнях — виявивши, що консервативна частота викликів GPT-4o у 22,7% забезпечує вищу якість відповідей (CSS 0,670), ніж агресивна TIR Qwen3-8B у 87,1%, тоді як невідповідність намірів перевищує 50% у всіх протестованих моделях.

ai
llm
automation
machine-learning
+4
BloombergGPT and the Limits of Domain-Specific LLMs in Finance
·mike

BloombergGPT and the Limits of Domain-Specific LLMs in Finance

Bloomberg trained a 50B-parameter LLM on 569B tokens of financial data and beat general models on sentiment and table-reasoning benchmarks — then GPT-4 matched it without any finance-specific pretraining. What the $10M experiment reveals about domain pretraining trade-offs, tokenization of numbers, and why tool-use is more reliable than model internals for accounting agents.

llm
ai
machine-learning
finance
+3