Estás en: Inicio > Listado de proyectos > Software y Tecnología > Desarrollo de Sistemas > Aplicaciones Web > PHP > Parseo De Datos + Grabación Y Contraste Con La Bd

Proyecto: Parseo De Datos + Grabación Y Contraste Con La Bd

Visible en:
ar bo br cl co cr cu ec sv es gt hn mx ni pa py pe do pr uy us ve xx
 
Encabezado:
Requerimos el desarrollo de 2 scripts en php 5
 
Autor:
bcnweb (0) es
 
Tipo de ofertas:
Privadas h
 
Presupuesto:
No definido
 
Tiempo de entrega:
15 días
 
Método de pago:
A convenir
 
Fecha de publicación:
11/06/2008 05:00
 
Finaliza en:
Finalizado
 
 
  ¿Qué es un proyecto? ¿Cómo publicar un proyecto? ¿Cómo realizar una oferta?
Descripción:
Con motivo de la incorporación de un nuevo proveedor de datos a nuestro sistema requerimos el desarrollo de dos scripts en php5 complementarios:



El primero de ellos obtendrá datos analizando un conjunto de ficheros en formato RSS derivados de navegación por disitintas urls y que deberá guardar en una BD de Mysql con estructura de datos definida para su posterior procesado. Este script deberá, a partir de una URL base, realizar el parseo completo de la interficie web que nos proporciona los datos accediendo a los diferentes RSS que proporciona.



El segundo es un script que realizará el match de datos entre los datos recuperados por el primer script y los ya existentes en la base de datos principal de nuestro sistema, generando listas de posibles duplicados con diferentes grados de parecido que permitan su procesado posterior. Este script deberá generar una tabla de datos con las sugerencias de duplicados teniendo en cuenta que debe mantenerse histórico de las fusiones sugeridas y evitar falsos positivos posteriores para los mismos elementos.



Palabras clave: CURL, EXPAT, SimpleXML, FULLTEXT, MATCH, SOUNDEX, LEVENSHTEIN, MYSQL, PHP5
Preguntas
11/06/2008 08:07 P: Estimado, que tal? Me gustaría hacerle algunas preguntas: Primer Script: -------------- 1. Desde donde se especificarán los URLs a navegar? 2. Explicar el término "derivados de navegación por distintas URLs" 3. Cual es la estructura definida para almacenar los datos? 4. Como se identificará dentro de las URLs que se ha encontrado un link a RSS? 5. Este script correrá desde el navegador o será disparado desde command line? 6. Que pasa si se ejecuta la importación mas de una vez? se volverán a insertar los datos? no se insertan? en este ultimo caso cual es el criterio de descarte? Script 2: --------- 1. Cual es la estructura de la base de datos principal? 2. Como se accederá a esta base? 3. Cual es el motor de dicha base? 4. Cuales son concretamente los grados de parecido posibles entre los datos? 5. "falsos positivos"? 6. como es la estructura de la tabla de duplicados? 7. Los datos duplicados de mostrarán en una página? 8. Cuales son los datos a mantener en el histórico? 9. Se manejarán usuarios para mantener el histórico? 10. Cualquiera puede correr el prcoeso? En principio estas son mis inquietudes para poder empezar a estimar el tamaño del desarrollo. Desde ya aguardo sus comentarios. asaban (0) ar
11/06/2008 09:03 R: Respuestas script 1: 1 es una URL fija que se facilitará a quien haga el script (hard-coded) 2 se nos ofrece un site con el contenido a procesar, dicho site incluye en cada página un enlace para generar el RSS… el script debe “navegar” todo el conjunto de enlaces que da acceso al total de contenidos y generar los RSS para cada página, por tanto debe ser capza de navegar por los enlaces que ofrece la web origen sin producir navegación múltiple para cada página, mantener estado si se usa un motor basado en recursividad, etc. 3 La estructura de datos consta de 3 bloques principales relacionados, básicamente se compone de 1 Master table y dos tablas 1-N contra la clave primaria de la tabla maestra. Los campos exactos se indicarán al desarrollador pero siendo en prácticamente su totalidad campos equivalentes a la estructura del XML recibido. 4. Siempre ocupa un lugar fijo y un contenido del enlace fijo 5 Crontab diaria 6 La estructura de datos incluye identificador único por lo que deberá evitarse la inserción duplicada siendo recomendable le procesado de posibles cambios, pese a que de base es muy poco probable que existan cambios en un registro ya adquirido.  

Volver arriba

hidden Recibe ofertas privadas. Ayuda

Ofertas:

[ No hay ofertas para este proyecto ]

Volver arriba

Realizar Oferta

Título: Parseo De Datos + Grabación Y Contraste Con La Bd
Autor: bcnweb
Fecha de inicio: 11/06/2008 05:00

  • Todas las ofertas generan un compromiso entre las partes.
  • No se puede ofertar en proyectos finalizados.

Volver arriba