[AI Embedchain] 组件 数据源

Embedchain附带了对各种数据源的内置支持。我们处理从这些数据源加载非结构化数据的复杂性,允许您通过用户友好的界面轻松自定义您的应用程序。

  • PDF file
  • CSV file
  • JSON file
  • Text
  • Text File
  • Directory
  • Web page
  • Youtube Channel
  • Youtube Video
  • Docs website
  • MDX file
  • DOCX file
  • Notion
  • Sitemap
  • XML file
  • Q&A pair
  • OpenAPI
  • Gmail
  • Google Drive
  • GitHub
  • Postgres
  • MySQL
  • Slack
  • Discord
  • Discourse
  • Substack
  • Beehiiv
  • Dropbox
  • Image
  • Audio
  • Custom

PDF

你可以从本地文件系统或通过URL加载任何PDF文件。

从本地文件加载

1
2
3
from embedchain import App
app = App()
app.add('/path/to/file.pdf', data_type='pdf_file')

从URL加载

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
from embedchain import App
app = App()
app.add('https://arxiv.org/pdf/1706.03762.pdf', data_type='pdf_file')
app.query("论文 '注意力就是一切' 是关于什么的?", citations=True)
# 回答: 论文 "注意力就是一切" 提出了一个新的网络架构叫做Transformer,该架构完全基于注意力机制。它表明复杂的循环神经网络或卷积神经网络可以用一种更简单的连接编码器和解码器通过注意力的架构替代。这篇论文讨论了这种方法如何能够改进序列转换模型,例如神经机器翻译。
# 上下文:
# [
#     (
#         '如果提供适当的归属...',
#         {
#             'page': 0,
#             'url': 'https://arxiv.org/pdf/1706.03762.pdf',
#             'score': 0.3676220203221626,
#             ...
#         }
#     ),
# ]

我们还存储了每个分块的页码信息(键为page),这有助于理解答案来自哪一页。你可以在检索时获取page键(参考上面给出的例子)。

注意:我们不支持受密码保护的PDF文件。

引用