Estás en: Inicio > Listado de proyectos > Software y Tecnología > Desarrollo de Sistemas > Aplicaciones Web > PHP > Parseo De Datos + Grabación Y Contraste Con La Bd

Proyecto: Parseo De Datos + Grabación Y Contraste Con La Bd

Visible en:
ar bo br cl co cr cu ec sv es gt hn mx ni pa py pe do pr uy us ve xx
 
Encabezado:
Requerimos el desarrollo de 2 scripts en php 5
 
Autor:
bcnweb (0) es
 
Tipo de ofertas:
Públicas
 
Presupuesto:
No definido
 
Tiempo de entrega:
15 días
 
Método de pago:
A convenir
 
Fecha de publicación:
11/06/2008 11:40
 
Finaliza en:
Finalizado
 
Visitas: 518 | Preguntas: 5 | Ofertas: 9 |  Recomienda este Proyecto
 
  ¿Qué es un proyecto? ¿Cómo publicar un proyecto? ¿Cómo realizar una oferta?
Descripción:
Con motivo de la incorporación de un nuevo proveedor de datos a nuestro sistema requerimos el desarrollo de dos scripts en php5 complementarios:



El primero de ellos obtendrá datos analizando un conjunto de ficheros en formato RSS derivados de navegación por disitintas urls y que deberá guardar en una BD de Mysql con estructura de datos definida para su posterior procesado. Este script deberá, a partir de una URL base, realizar el parseo completo de la interficie web que nos proporciona los datos accediendo a los diferentes RSS que proporciona.



El segundo es un script que realizará el match de datos entre los datos recuperados por el primer script y los ya existentes en la base de datos principal de nuestro sistema, generando listas de posibles duplicados con diferentes grados de parecido que permitan su procesado posterior. Este script deberá generar una tabla de datos con las sugerencias de duplicados teniendo en cuenta que debe mantenerse histórico de las fusiones sugeridas y evitar falsos positivos posteriores para los mismos elementos.



Palabras clave: CURL, EXPAT, SimpleXML, FULLTEXT, MATCH, SOUNDEX, LEVENSHTEIN, MYSQL, PHP5

Preguntas de Asaban:

Primer script­:
--------------
1. Desde donde se especificarán los URLs a navegar?
2. Explicar el término "derivados de navegación por distintas URLs"
3. Cual es la estructura definida para almacenar los datos?
4. Como se identificará dentro de las URLs que se ha encontrado un link a RSS?
5. Este script correrá desde el navegador o será disparado desde command line?
6. Que pasa si se ejecuta la importación mas de una vez? se
volverán a insertar los datos? no se insertan? en este ultimo caso cual
es el criterio de descarte?

Script 2:
---------
1. Cual es la estructura de la base de datos principal?
2. Como se accederá a esta base?
3. Cual es el motor de dicha base?
4. Cuales son concretamente los grados de parecido posibles entre los datos?
5. "falsos positivos"?
6. como es la estructura de la tabla de duplicados?
7. Los datos duplicados de mostrarán en una página?
8. Cuales son los datos a mantener en el histórico?
9. Se manejarán usuarios para mantener el histórico?
10. Cualquiera puede correr el prcoeso?

-------------------------------------------------------------------------------------------------------

Respuestas script 1:

1 es una URL fija que se
facilitará a quien haga el script (hard-coded)

2 se nos ofrece un site
con el contenido a procesar, dicho site incluye en cada página un enlace para
generar el RSS… el script debe “navegar” todo el conjunto de
enlaces que da acceso al total de contenidos y generar los RSS para cada página,
por tanto debe ser capza de navegar por los enlaces que ofrece la web origen
sin producir navegación múltiple para cada página, mantener estado si se usa un
motor basado en recursividad, etc.

3 La estructura de datos
consta de 3 bloques principales relacionados, básicamente se compone de 1
Master table y dos tablas 1-N contra la clave primaria de la tabla maestra. Los
campos exactos se indicarán al desarrollador pero siendo en prácticamente su
totalidad campos equivalentes a la estructura del XML recibido.

4. Siempre ocupa un lugar
fijo y un contenido del enlace fijo

5 Crontab diaria

6 La estructura de datos
incluye identificador único por lo que deberá evitarse la inserción duplicada
siendo recomendable le procesado de posibles cambios, pese a que de base es muy
poco probable que existan cambios en un registro ya adquirido.

Respuestas script 2:

1 El match se realizará
de base contra la parte principal del registro (tabla maestra) de la importación
contra una tabla de estructura similar (se proveerá paquete de datos de muestra
para la realización del script) con equivalencia de campos 1 a 1

2 Mysql, funciones base…
en caso de ser necesario unificar con nuestra capa de acceso a datos se haría a
posterior por parte de nuestro equipo de desarrollo

3 MySQL

4 Grados en base a
diferentes casos: fechas + textos + valores concretos en algunos campos ->duplicado exacto, match parcial en algunos de los campos -> duplicado
parcial por el tipo de campo que de positivo

5 Falso positivo: Cuando
se sugiere un posible duplicado se incluirá un estado de validación de dicha
sugerencia. En caso de existir un registro previo que determine la
equivalencia o la no equivalencia se deberá actuar en consecuencia no
insertando la nueva sugerencia.

6 del tipo pk de tabla de
importaciones, pk de tabla maestra del sistema, estado_validacion,
grado_parecido donde pk => primary key

7 Si, de base no se
requiere la programación de la gestión de las sugerencias

8 Principalmente todos…
la tabla de sugerencias de duplicados será persistente para permitir el control
de los falsos positivos

9/10 La integración en
nuestro sistema de gestión de datos corre por parte de nuestro equipo


Preguntas
13/06/2008 14:32 P: Estimado USuario en cuanto al origen de datos, vemos que en su descripcion hablan solo de archivos RSS que seran los que usaremos para la inspeccion, pero en las respuestas publicadas indican que se usaran todos los enlaces del sitio web, es decir que habra qeu navegr portodo el contenido de la web? Aclarar por favor. Saludos Cordiales ntsolutions (27 Medalla de Platino) pe
16/06/2008 03:27 R: Basicamente en cada página a procesar (pagina web con URL conocidoa) hay un enlace qeu nos lleva al contenido global de la sección en formato RSS, Se tendrá que acceder al site por una URL base, navegar a cada una de las secciones y simular el seguimiento del enlace de RSS (conseguir la URL, a fin de cuentas) para llamar a esa página y procesar el RSS que devuelve. Ahora te ha quedado más claro?  
13/06/2008 14:12 P: Mencionan las técnicas SOUNDEX, LEVENSHTEIN pero en la descripción de los scripts no esta. Supongo que sera utilizado para buscar coincidencias, errores de escritura, detectar falsos positivos y similares. La pregunta es Exactamente en que desean aplicarlo y si la comparación sera por: palabra, titulo, contenido o otro; si se puede un ejemplo mucho mejor gracias. mashter (1) mx
16/06/2008 03:27 R: Si exactamente lo que comentas, y la comparación será por múltiples campos multipalabra  
12/06/2008 12:12 P: Podemos realizarlo por 300 euros, contamos con un experto en extraccion y parseo de datos complejos. Para hacerlo automatico solo requerimos un servidor linux con suficiente acceso para un cronjob, realizacion en Php y mysql webafull (5 Medalla de Bronce) ar Datos verificados
12/06/2008 12:16 R: Solicitamos el desarrollo de los scripts, cuando estén correctos y funcionando, nosotros los colocaremos en nuestro servidores.  
12/06/2008 08:22 P: El segundo script tendrá alguna apariencia física en particular; como por ejemplo de directorio de noticias, o buscador, o.... de que tipo? o la interface del frontend ustedes ya la tienen? mashter (1) mx
12/06/2008 09:25 R: La interface del fronted ya está creada. De base no es necesario crear ninguna apariencia física, solo de meterlo en la tabla de sugerencias. Del montaje del front nos encargaremos nosotros.  
12/06/2008 05:32 P: Se puede realizar el script en Perl o necesariamente debe ser en PHP?, pregunto porque lo considero mas practico para cronearlo. Gracias. oskar (4) ar
12/06/2008 05:39 R: Preferimos PHP, de primeras descartamos Perl.  

Volver arriba

Fecha Oferta T. de entrega  Precio Postulante
27/06/2008 03:30 Desarrollo Por Equipo Experto Y Lider De Tf 15 días 650,00 EUR ntsolutions (27 Medalla de Platino) pe
26/06/2008 13:10 Posible De Hacer 100% 20 días 500,00 EUR rul (0) ar
24/06/2008 06:50 Presupuesto - Parseo De Datos, Grabación Y Contraste Con Bd 10 días 280,00 EUR isisgroup (0) ar
20/06/2008 06:10 Parseo De Datos + Grabación Y Contraste Con La Bd 10 días 200,00 EUR javi_legido (0) es Datos verificados
17/06/2008 12:10 Parseo De Datos + Grabación Y Contraste Con La Bd 6 días 220,00 EUR ferestre (0) co
17/06/2008 08:30 Propuesta 30 días 700,00 EUR mashter (1) mx
12/06/2008 15:10 Parseo De Datos + Grabación Y Contraste Con La Bd 14 días 300,00 EUR webafull (5 Medalla de Bronce) ar Datos verificados
12/06/2008 02:10 Programacion Y Maquetación Web A Medida 15 días 400,00 EUR mateuca (0) es Usuario dado de baja
12/06/2008 01:50 Parseo De Datos + Grabación Y Contraste Con La Bd 15 días 500,00 EUR codeko (1) es

Volver arriba

Realizar Oferta

Título: Parseo De Datos + Grabación Y Contraste Con La Bd
Autor: bcnweb
Fecha de inicio: 11/06/2008 11:40

  • Todas las ofertas generan un compromiso entre las partes.
  • No se puede ofertar en proyectos finalizados.

Volver arriba