LLMを使う上で、検索エンジンを活用した RAG (Retrieval-Augmented Generation) が便利だが、現在のRAGでは生のHTMLを理解させようとしている。
しかしタグ記述やclass名など、コンテンツ情報としては不要なものも多々あるので、公開されているページをMarkdown化するJina Reader APIが公開されている。月1,000件であれば無料で使える。
Reader API | Jina AI
https://jina.ai/reader
画像も理解してaltを追加してくれる。
Let's see an example. In this example, we use Jina Reader to read a wiki page https://t.co/xGO9XnxYjh and as you can see from the response that all images are captioned with an index and a short description now! pic.twitter.com/36nYzDGZOh
— Jina AI (@JinaAI_) April 16, 2024