Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于的数据集构建问题 #5

Closed
WangYao-GoGoGo opened this issue Aug 19, 2023 · 3 comments
Closed

关于的数据集构建问题 #5

WangYao-GoGoGo opened this issue Aug 19, 2023 · 3 comments

Comments

@WangYao-GoGoGo
Copy link

作者您好,

 读了您的论文,我对您的研究非常感兴趣。但是对论文中t大于0的数据集构建(section 4.1)有一些疑问,没有看明白。

 文中说,t大于0时,先从DBpedia中搜集包含KGt-1中实体的关系三元组。然后删除KGt-1中存在的关系三元组。

 下面这段话,我理解上有一些问题感觉。
 接着从DBpedia中剩余的三元组中采样KGt-1中20%量的新三元组?将这些新三元组添加到KGt-1中,然后创建KG1t和KG2t。

我对这里的流程还是不太明白,麻烦作者能给详细介绍一下吗?非常感激您!
@WangYao-GoGoGo
Copy link
Author

作者您好,还有一点我不明白的是,t时刻的测试集是包含t-1时刻所有的测试集吗,然后再加上一部分t时刻的新数据?还是说t时刻的测试集是从KGt中随机抽取70%的数据集,包含部分t-1时刻的测试集?

@audreycs
Copy link
Collaborator

你好,针对你的第一个问题,这是整个流程的中文翻译,希望能解答你的疑惑:

  1. 构造t=0时刻的KGs:t=0时刻的KGs就是DBP15k(中英、日英、法英),但因为之前DBP15k的已知实体匹配对不全,仅仅考虑头实体之间的匹配,因此我们从DBpedia dump中挖掘出缺失的一些匹配对并加入DBP15k中,于是最终的实体匹配对数目大于15k。(其实t=0时刻添加实体匹配对不是必须的,只是因为DBP15k原始的已知匹配对信息不全,我们才这样处理)。训练、验证、测试集就是从已知实体匹配对按照2:1:7随机划分的。

  2. 构造后续时刻的KGs:首先我们不考虑新增训练集与验证集。具体构造分3步:

    • 从Dump中抽取头实体或尾实体出现在上一时刻KGs的三元组并加入,我们设置了新加入的三元组比例为20%(比例你也可以自己定)。比如t=0时刻KGs各有100个三元组,那这时我们各自加入20个新三元组,就变成了120个。
    • 补充各个KG新三元组之间的链接。由于新三元组可能会带来新实体,新实体之间也有可能存在链接,因此我们还补上了各个KG新三元组之间的链接。从而最终的三元组比例大于20%
    • 最后构造该时刻的测试集。从dump中抽取该时刻下KGs间所有的实体匹配集(全体测试集)和比上一时刻新增的实体匹配集(新增测试集)。

针对你的第二个问题,我们的主实验中,t时刻的测试集是包含t-1时刻所有的测试集,然后再加上一部分t时刻的新数据,是递增的(可以看表1)。我们也进行了仅仅在t时刻新增测试集上的实验,即发现新增实体匹配对(Discovering new alignment)。

@WangYao-GoGoGo
Copy link
Author

谢谢,解释的非常详细。最近又看了一些相关领域的论文,准备基于您的工作再展开一下,希望后面可以合作

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants