LLMを使う上で、検索エンジンを活用した RAG (Retrieval-Augmented Generation) が便利だが、現在のRAGでは生のHTMLを理解させようとしている。
しかしタグ記述やclass名など、コンテンツ情報としては不要なものも多々あるので、公開されているページをMarkdown化するJina Reader APIが公開されている。月1,000件であれば無料で使える。
Reader API | Jina AI
https://jina.ai/reader
![](https://yoshikitam.wpx.jp/2001y/wp-content/uploads/2024/04/CleanShot-2024-04-23-at-13.45.41@2x.png)
画像も理解してaltを追加してくれる。
Let's see an example. In this example, we use Jina Reader to read a wiki page https://t.co/xGO9XnxYjh and as you can see from the response that all images are captioned with an index and a short description now! pic.twitter.com/36nYzDGZOh
— Jina AI (@JinaAI_) April 16, 2024