Buenas,
estoy buscando algo como "pdf2bibtex", que extraiga la metadata del pdf (autores, año, etc. etc.) y me genere un output para bibtex.
Vi que hay herramientas que extraen metadata y el output es xml.
Hace un tiempo, usando Zotero (un plugin para firefox que permitia compartir links, archivos y cosas asi) vi que tenia exactamente esa opción. De no encontrar lo que busco supongo que podría subir todos los pdf que tengo a Zotero y pedirle que me genere el bibtex, pero lo más apropiado sería una herramienta que haga directamente eso.
Quería saber si uds conocen alguna herramienta que haga eso y les haya resultado buena, mientras sigo buscando
Bue, encontre uno que se llama cb2bib pero deja que desear o la metadata en el pdf no está del todo bien (en cualquiera de los 2 casos no me sirve de mucho). Lo probé con un paper de la ieee, que te da la citation para bibtex (asi que me parece que voy a buscar uno por uno de los que bajé) y la salida de cb2bib:
Código:
@INPROCEEDINGS{1553643,
author={Xiaoxia Ren and Ryder, B.G. and Stoerzer, M. and Tip, F.},
booktitle={Software Engineering, 2005. ICSE 2005. Proceedings. 27th International Conference on},
title={Chianti: a change impact analysis tool for Java programs},
year={2005},
month={may},
volume={},
number={},
pages={ 664 - 665},
keywords={ Java program; change impact analysis tool; debugging technique; eclipse environment; object-oriented program; partial order interdependence; regression test; Java; program debugging; software tools;},
doi={10.1109/ICSE.2005.1553643},
ISSN={},}
% cb2Bib 1.4.5
@article{Ren02,
title = {{Paper.Dvi}},
author = {X. Ren and F. Shah and F. Tip and B. G. Ryder and O. Chesley},
journal = {Science},
volume = {3},
year = {2002},
abstract = {blablabla},
file = {blablabla/Chianti: A Tool for Change Impact Analysis of Java Programs.pdf}
}
Por un lado, el año está mal porque es de por lo menos el 2005 porque al final cita bibliografía de 2004 (salvo que le haya pedido el delorean a martin), el título tambien. Los nombres estaría bueno que los ponga completos, le puoe "article" en vez de "inproceedings", etc. Lo único bueno es que pone como "label" Ren02 y no un número (que lo voy a tener que terminar cambiando) como el que me da ieee.
Supongo que tendré que bajar los de ieee y cambiarle el label, con lo que he bajado de otros lados... que se yo, no se si puedo confiar en la herramienta
@inproceedings{ren_chianti:_2004,
title = {Chianti: a tool for change impact analysis of java programs},
volume = {39},
shorttitle = {Chianti},
booktitle = {{ACM} {SIGPLAN} Notices},
author = {Ren, X. and Shah, F. and Tip, F. and Ryder, {B.G.} and Chesley, O.},
year = {2004},
pages = {432–448}
}
las 3 herramientas me dan un año distinto... que garcha... cual estará bien? Porque la citation que me da la ieee dice pages={ 664 - 665}, pero el paper tiene 15 páginas, más acorde con lo que dice zotero
En ieee dice esto del paper:
ieee escribió:
This paper appears in: Software Engineering, 2005. ICSE 2005. Proceedings. 27th International Conference on
Issue Date : 15-21 May 2005
On page(s): 664 - 665
Print ISBN: 1-59593-963-2
References Cited: 7
Cited by : 4
INSPEC Accession Number: 8844707
Digital Object Identifier : 10.1109/ICSE.2005.1553643
Date of Current Version : 19 December 2005
Porque garcha cada herramienta saca un año distinto?
Habría que ver de qué campos saca esa información en el PDF. Como los papers se suelen publicar mucho después de que se escriben, es posible que esté tomando el timestamp o la fecha de compilación, en lugar de la fecha de publicación.
Lo que hago yo es usar zotero, buscar el paper en Google Scholar y chupar de la página de la revista la metadata. Zotero es principalmente una base de datos bibliográfica (también te permite compartir, pero para eso creo que hay cosas mejores como Mendeley -aunque no es open source-).
Me parece piola la idea de automatizar las cosas... ahora, si vas a leer un paper de 15 páginas me parece que no es mucha pérdida de tiempo verificar la referencia bibliográfica a mano y asegurarte de poner los datos correctos. Pero, bueno, es mi opinión.
Habría que ver de qué campos saca esa información en el PDF. Como los papers se suelen publicar mucho después de que se escriben, es posible que esté tomando el timestamp o la fecha de compilación, en lugar de la fecha de publicación.
Lo que hago yo es usar zotero, buscar el paper en Google Scholar y chupar de la página de la revista la metadata. Zotero es principalmente una base de datos bibliográfica (también te permite compartir, pero para eso creo que hay cosas mejores como Mendeley -aunque no es open source-).
Me parece piola la idea de automatizar las cosas... ahora, si vas a leer un paper de 15 páginas me parece que no es mucha pérdida de tiempo verificar la referencia bibliográfica a mano y asegurarte de poner los datos correctos. Pero, bueno, es mi opinión.
Más arriba puse la salida de zotero. El problema viene porque ya lei unos cuantos y voy a leer unos cuantos más. Tomarme ese laburo para 100 papers me parece un despropósito SI existe una herramienta que lo hace.
Busque en google scholar el ejemplo que puse y zotero parece pegarle bastante bien, me parece que voy a terminar usando zotero.
No habia usado lo de Google Scholar, gracias por el dato
Bah, si, que se yo... es mi opinión. Y está basada en una experiencia de leer mayormente papers viejos ('60s - '70s). Y como la metadata estaba generalmente bastante mal, me la tuve que bancar.
Igualmente, más que la cuestión específica de generar lista bibliográficas, el uso que le doy a zotero es para almacenar y recuperar papers offline (o cuando estoy en casa y no tengo el acceso a revistas vía SECYT). En algunos casos zotero "chupa" de la página la metadata + el archivo pdf del paper pero, en los casos que no, también se pueden agregar con "Attach stored copy of file". Zotero indexa la metadata, pero también indexa el contenido de los pdf, así que resulta muy piola para después recuperar la información.
Ver tema siguiente Ver tema anterior Podés publicar nuevos temas en este foro No podés responder a temas en este foro No podés editar tus mensajes en este foro No podés borrar tus mensajes en este foro No podés votar en encuestas en este foro No Podéspostear archivos en este foro No Podés bajar archivos de este foro
Todas las horas son ART, ARST (GMT - 3, GMT - 2 Horas)
Protected by CBACK CrackerTracker 365 Attacks blocked.