总体目标:通过两个不同的书目数据集,实现同一本书的匹配,进而将两边同一本书的类号抽取出来。
1、两个数据集的标签匹配
BNB |
OLB |
||
书名 |
dct:title |
书名 |
dcterms:title |
书号 |
bibo:isbn10 |
||
blt:bnb |
|||
作者 |
dct:creator |
作者 |
bibo:authorList |
合作者 |
dct:Contributor |
合作者 |
dcterms:contributor |
出版 |
blt:publication-event:agent |
出版者 |
dcterms:publisher |
出版时间 |
blt:publication-event:time |
出版时间 |
dcterms:issued |
出版地 |
blt:publication-event:place |
出版地 |
rdvocab:placeOfPublication |
版本 |
isbd:p1008 |
||
语言 |
dct:language |
语言 |
dcterms:language |
页数 |
isbd:P1053 |
页数 |
dcterms:extent |
主题 |
dct:subject-DDC/LCSH |
主题 |
dc:subject/dcterms:subject |
2、对应标签下的内容匹配,使用字符相似度。
分别计算题名、作者、出版信息(出版时间、地点、机构)的相似度,每个分配一个权重计算总体的相似度:,根据实验看设置相似度为多少合适,满足一定阈值为同一本书。作者可能有多个,排序不同,逐一匹配。
3、考虑利用链接信息实现,帮助计算字符相似度,比如作者存在别名、简写等,通过(owl:sameAS),点击链接,丰富作者信息,提高匹配的准确度。
4、识别同一本书后,把对应的书类号提取出来建立相同关系,如668/.65=SB950.93 .I57。
总体流程: